Jump To Close Expand all Collapse all Table of contents 补救、隔离和维护 前言 1. 关于节点补救、隔离和维护 Expand section "1. 关于节点补救、隔离和维护" Collapse section "1. 关于节点补救、隔离和维护" 1.1. 自助服务修复 1.2. 机器健康检查 1.3. 节点健康检查 1.4. 节点维护 2. 使用自节点修复 Expand section "2. 使用自节点修复" Collapse section "2. 使用自节点修复" 2.1. 关于自助服务修复 Operator Expand section "2.1. 关于自助服务修复 Operator" Collapse section "2.1. 关于自助服务修复 Operator" 2.1.1. 关于 watchdog 设备 Expand section "2.1.1. 关于 watchdog 设备" Collapse section "2.1.1. 关于 watchdog 设备" 2.1.1.1. 了解 watchdog 设备的自助服务修复 Operator 行为 2.2. control plane 隔离 2.3. 使用 web 控制台安装 Self Node Remediation Operator 2.4. 使用 CLI 安装自助服务 Operator 2.5. 配置自节点修复 Operator Expand section "2.5. 配置自节点修复 Operator" Collapse section "2.5. 配置自节点修复 Operator" 2.5.1. 了解 Self Node Remediation Operator 配置 2.5.2. 了解自助节点修复模板配置 2.6. 对自节点修复 Operator 进行故障排除 Expand section "2.6. 对自节点修复 Operator 进行故障排除" Collapse section "2.6. 对自节点修复 Operator 进行故障排除" 2.6.1. 常规故障排除 2.6.2. 检查守护进程集 2.6.3. 失败的补救 2.6.4. 即使在卸载了 Operator 后,守护进程集和其他自节点修复 Operator 资源也存在 2.7. 收集自节点修复 Operator 的数据 2.8. 其他资源 3. 使用机器健康检查修复节点 Expand section "3. 使用机器健康检查修复节点" Collapse section "3. 使用机器健康检查修复节点" 3.1. 关于机器健康检查 Expand section "3.1. 关于机器健康检查" Collapse section "3.1. 关于机器健康检查" 3.1.1. 部署机器健康检查时的限制 3.2. 配置机器健康检查以使用 Self Node Remediation Operator 4. 使用节点健康检查修复节点 Expand section "4. 使用节点健康检查修复节点" Collapse section "4. 使用节点健康检查修复节点" 4.1. 关于 Node Health Check Operator Expand section "4.1. 关于 Node Health Check Operator" Collapse section "4.1. 关于 Node Health Check Operator" 4.1.1. 了解 Node Health Check Operator 工作流 4.1.2. 关于节点健康检查如何防止与机器健康检查冲突 4.2. control plane 隔离 4.3. 使用 Web 控制台安装 Node Health Check Operator 4.4. 使用 CLI 安装 Node Health Check Operator 4.5. 创建节点健康检查 4.6. 收集 Node Health Check Operator 的数据 4.7. 其他资源 5. 使用 Node Maintenance Operator 将节点置于维护模式 Expand section "5. 使用 Node Maintenance Operator 将节点置于维护模式" Collapse section "5. 使用 Node Maintenance Operator 将节点置于维护模式" 5.1. 关于 Node Maintenance Operator 5.2. 安装 Node Maintenance Operator Expand section "5.2. 安装 Node Maintenance Operator" Collapse section "5.2. 安装 Node Maintenance Operator" 5.2.1. 使用 Web 控制台安装 Node Maintenance Operator 5.2.2. 使用 CLI 安装 Node Maintenance Operator 5.3. 将节点设置为维护模式 Expand section "5.3. 将节点设置为维护模式" Collapse section "5.3. 将节点设置为维护模式" 5.3.1. 使用 Web 控制台将节点设置为维护模式 5.3.2. 使用 CLI 将节点设置为维护模式 5.3.3. 检查当前 NodeMaintenance CR 任务的状态 5.4. 从维护模式恢复节点 Expand section "5.4. 从维护模式恢复节点" Collapse section "5.4. 从维护模式恢复节点" 5.4.1. 使用 Web 控制台从维护模式恢复节点 5.4.2. 使用 CLI 从维护模式恢复节点 5.5. 使用裸机节点 Expand section "5.5. 使用裸机节点" Collapse section "5.5. 使用裸机节点" 5.5.1. 维护裸机节点 5.5.2. 将裸机节点设置为维护模式 5.5.3. 从维护模式恢复裸机节点 5.6. 收集 Node Maintenance Operator 的数据 5.7. 其他资源 法律通告 Settings Close Language: 简体中文 한국어 日本語 English Language: 简体中文 한국어 日本語 English Format: Multi-page Single-page Format: Multi-page Single-page Language and Page Formatting Options Language: 简体中文 한국어 日本語 English Language: 简体中文 한국어 日本語 English Format: Multi-page Single-page Format: Multi-page Single-page 1.4. 节点维护 管理员面临需要中断集群的情况,例如替换驱动器、RAM 或 NIC。 在此维护之前,应该对受影响的节点进行封锁并排空。当节点被封锁时,无法将新的工作负载调度到该节点上。当节点排空时,为了避免或最小化停机时间,受影响节点上的工作负载将传送到其他节点。 虽然此维护可以使用命令行工具实现,但 Node Maintenance Operator 提供了使用自定义资源来实现此目的的声明方法。当节点存在此类资源时,Operator 会封锁并排空节点,直到资源被删除为止。 Previous Next