Menu Close

Red Hat Training

A Red Hat training course is available for OpenShift Container Platform

第 26 章 节点问题检测程序

26.1. 概述

节点问题检测程序通过发现某些问题并将这些问题报告 API 服务器来监控节点的健康状况。检测器以 daemonset 用户身份在每个节点上运行。

重要

节点问题检测程序只是一个技术预览功能。技术预览功能不包括在红帽生产服务级别协议(SLA)中,且其功能可能并不完善。因此,红帽不建议在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。

如需红帽技术预览功能支持范围的更多信息,请参阅 https://access.redhat.com/support/offerings/techpreview/

节点问题检测程序读取系统日志并监视特定条目,并使其在 control plane 中可见,您可以使用 OpenShift Container Platform 命令(如 oc get node 和 oc get 事件 )来查看这些问题。然后,您可以根据情况采取措施更正这些问题,或使用您选择的工具(如 OpenShift Container Platform 日志监控 )捕获信息。检测到的问题可分为以下类别之一:

  • NodeCondition:使节点对 pod 不可用的永久问题。主机重启后,节点状况才会被清除。
  • 事件 :对节点的影响有限,但具有信息性的一个临时问题。

节点问题检测程序可以检测到:

  • 容器运行时问题:

    • 不响应的运行时守护进程
  • 硬件问题:

    • 错误 CPU
    • 错误内存
    • 错误磁盘
  • 内核问题:

    • 内核死锁条件
    • 损坏的文件系统
    • 不响应的运行时守护进程
  • 基础架构守护进程问题:

    • NTP 服务中断