Red Hat Training
A Red Hat training course is available for OpenShift Container Platform
26.2. 节点问题检测程序输出示例
以下示例显示了节点问题检测程序监视特定节点上的内核死锁节点情况的输出。命令使用 oc get node
监视日志中 KernelDeadlock
条目的特定节点过滤。
# oc get node <node> -o yaml | grep -B5 KernelDeadlock
没有问题的节点问题检测程序输出示例
message: kernel has no deadlock reason: KernelHasNoDeadlock status: false type: KernelDeadLock
KernelDeadLock 条件的输出示例
message: task docker:1234 blocked for more than 120 seconds reason: DockerHung status: true type: KernelDeadLock
本例显示了节点问题检测程序监视节点上的事件的输出。以下命令使用 oc get event
监视 default 项目中的、在 Node Problem Detector configuration map 的 kernel-monitor.json
部分中列出的事件。
# oc get event -n default --field-selector=source=kernel-monitor --watch
显示节点上的事件的输出示例
LAST SEEN FIRST SEEN COUNT NAME KIND SUBOBJECT TYPE REASON SOURCE MESSAGE 2018-06-27 09:08:27 -0400 EDT 2018-06-27 09:08:27 -0400 EDT 1 my-node1 node Warning TaskHunk kernel-monitor.my-node1 docker:1234 blocked for more than 300 seconds 2018-06-27 09:08:27 -0400 EDT 2018-06-27 09:08:27 -0400 EDT 3 my-node2 node Warning KernelOops kernel-monitor.my-node2 BUG: unable to handle kernel NULL pointer deference at nowhere 2018-06-27 09:08:27 -0400 EDT 2018-06-27 09:08:27 -0400 EDT 1 my-node1 node Warning KernelOops kernel-monitor.my-node2 divide error 0000 [#0] SMP
注意
节点问题检测程序消耗资源。如果使用节点问题检测程序,请确保有足够的节点来平衡集群性能。