2.6. 对自节点修复 Operator 进行故障排除
2.6.1. 常规故障排除
- 问题
- 您需要使用自助服务修复 Operator 排除问题。
- 解决方案
- 检查 Operator 日志。
2.6.2. 检查守护进程集
- 问题
- 已安装 Self Node Remediation Operator,但守护进程集不可用。
- 解决方案
- 检查 Operator 日志中的错误或警告。
2.6.3. 失败的补救
- 问题
- 一个不健康的节点没有被修复。
- 解决方案
运行以下命令验证
selfNodeRemediationCR 是否已创建:$ oc get snr -A
当节点处于不健康状态时,如果
MachineHealthCheck控制器没有创建SelfNodeRemediationCR,请检查MachineHealthCheck控制器的日志。此外,请确保MachineHealthCheckCR 包含使用补救模板所需的规范。如果创建了
SelfNodeRemediationCR,请确保其名称与不健康的节点或机器对象匹配。
2.6.4. 即使在卸载了 Operator 后,守护进程集和其他自节点修复 Operator 资源也存在
- 问题
- 即使卸载 Operator 后,也会存在 Self Node Remediation Operator 资源,如守护进程集、配置 CR 和补救模板 CR。
- 解决方案
要删除 Self Node Remediation Operator 资源,请运行以下命令来删除每种资源类型的资源:
$ oc delete ds <self-node-remediation-ds> -n <namespace>
$ oc delete snrc <self-node-remediation-config> -n <namespace>
$ oc delete snrt <self-node-remediation-template> -n <namespace>