Menu Close

Red Hat Training

A Red Hat training course is available for OpenShift Container Platform

26.2. 节点问题检测器输出示例

以下示例显示来自 Node Problem Detector 监视特定节点上的内核死锁节点状况的输出。该命令使用 oc get node 来监控日志中 KernelDeadlock 条目的特定节点过滤。

# oc get node <node> -o yaml | grep -B5 KernelDeadlock

无问题节点问题检测器输出示例

message: kernel has no deadlock
reason: KernelHasNoDeadlock
status: false
type: KernelDeadLock

KernelDeadLock 条件的输出示例

message: task docker:1234 blocked for more than 120 seconds
reason: DockerHung
status: true
type: KernelDeadLock

本例演示了节点问题检测程序的输出,它监视节点上的事件。以下命令针对 默认 项目使用 oc get event 来 监视 Node Problem Detector 配置映射 的 kernel-monitor.json 部分中列出的事件。

# oc get event -n default --field-selector=source=kernel-monitor --watch

显示节点上事件的输出示例

LAST SEEN                       FIRST SEEN                    COUNT NAME     KIND  SUBOBJECT TYPE    REASON      SOURCE                   MESSAGE
2018-06-27 09:08:27 -0400 EDT   2018-06-27 09:08:27 -0400 EDT 1     my-node1 node            Warning TaskHunk    kernel-monitor.my-node1  docker:1234 blocked for more than 300 seconds
2018-06-27 09:08:27 -0400 EDT   2018-06-27 09:08:27 -0400 EDT 3     my-node2 node            Warning KernelOops  kernel-monitor.my-node2  BUG: unable to handle kernel NULL pointer deference at nowhere
2018-06-27 09:08:27 -0400 EDT   2018-06-27 09:08:27 -0400 EDT 1     my-node1 node            Warning KernelOops  kernel-monitor.my-node2  divide error 0000 [#0] SMP

注意

节点问题检测程序会消耗资源。如果使用节点问题检测程序,请确保有足够的节点来平衡集群性能。