11.4. 关于裸机的基于电源的补救

在裸机集群中,修复节点对于确保集群的整体健康状况至关重要。以物理方式修复集群可能会有一定难度,且在使机器进入安全或操作状态时出现任何延迟,这会增加集群处于降级状态的时间,以及后续故障可能会导致集群离线的风险。基于电源的补救可帮助解决此类问题。

基于电源的补救不重新置备节点,而是使用电源控制器关闭不可操作的节点。这种类型的补救也称为电源隔离。

OpenShift Container Platform 使用 MachineHealthCheck 控制器来检测出现故障的裸机节点。基于电源的补救速度会较快,它只重启有问题的节点,而不是从集群中移除。

基于电源的补救提供以下功能:

  • 允许恢复 control plane 节点
  • 在超聚合环境中减少了数据丢失的风险
  • 减少了因为恢复物理机器造成的停机时间

11.4.1. 裸机上的 MachineHealthCheck

在裸机集群上删除机器会触发重新置备裸机主机。通常,裸机重新置备是一个需要较长时间的过程,在这个过程中,集群缺少计算资源,应用程序可能会中断。要将默认补救过程从机器删除到主机的节能周期,请使用 machine.openshift.io/remediation-strategy: external-baremetal 注解来注解 MachineHealthCheck 资源。

设置注解后,不健康的机器会使用 BMC 凭证进行节能。

<mgmt-troubleshooting-issue-power-remediation_deploying-machine-health-checks><title>基于电源补救的故障排除</title>

要排除基于电源补救的问题,请验证以下内容:

  • 您可以访问 BMC。
  • BMC 连接到负责运行补救任务的 control plane 节点。
</mgmt-troubleshooting-issue-power-remediation_deploying-machine-health-checks>