Menu Close
Red Hat Training
A Red Hat training course is available for OpenShift Container Platform
第 26 章 节点问题检测程序
26.1. 概述
节点问题检测程序通过发现某些问题并将这些问题报告 API 服务器来监控节点的健康状况。检测器以 daemonset 用户身份在每个节点上运行。
重要
节点问题检测程序只是一个技术预览功能。技术预览功能不包括在红帽生产服务级别协议(SLA)中,且其功能可能并不完善。因此,红帽不建议在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。
如需红帽技术预览功能支持范围的更多信息,请参阅 https://access.redhat.com/support/offerings/techpreview/。
节点问题检测程序读取系统日志并监视特定条目,并使其在 control plane 中可见,您可以使用 OpenShift Container Platform 命令(如 oc get node 和
)来查看这些问题。然后,您可以根据情况采取措施更正这些问题,或使用您选择的工具(如 OpenShift Container Platform 日志监控 )捕获信息。检测到的问题可分为以下类别之一:
oc get
事件
-
NodeCondition
:使节点对 pod 不可用的永久问题。主机重启后,节点状况才会被清除。 -
事件
:对节点的影响有限,但具有信息性的一个临时问题。
节点问题检测程序可以检测到:
容器运行时问题:
- 不响应的运行时守护进程
硬件问题:
- 错误 CPU
- 错误内存
- 错误磁盘
内核问题:
- 内核死锁条件
- 损坏的文件系统
- 不响应的运行时守护进程
基础架构守护进程问题:
- NTP 服务中断