第 8 章 部署机器健康检查

您可以配置和部署机器健康检查,以自动修复机器池中损坏的机器。

重要

此过程不适用于自己手动置备机器的集群。您只能在使用机器 API 的集群中使用高级机器管理和扩展功能。

8.1. 关于 MachineHealthCheck

MachineHealthCheck 可自动修复特定 MachinePool 中不正常的 Machine。

要监控机器的健康状况,您可以创建资源来定义控制器的配置。设置要检查的条件(例如,处于 NotReady 状态达到 15 分钟或 node-problem-detector 中显示了持久性状况),以及用于要监控的机器集合的标签。

注意

您无法将 MachineHealthCheck 应用到具有主控机(master)角色的机器。

监控 MachineHealthCheck 资源的控制器将检查是否出现了您定义的状态。如果机器不能通过健康检查,会自动被删除并创建新的机器来代替它。删除机器之后,您会看到机器被删除事件。为限制删除机器造成的破坏性影响,控制器一次仅清空并删除一个节点。如果目标机器池中不健康的机器数量大于 maxUnhealthy 的值,则补救会停止,以便手动进行干预。

若要停止检查,请删除其资源。