第 14 章 处理节点故障

作为存储管理员,您可以在存储集群中遇到整个节点故障,处理节点故障与处理磁盘故障类似。当节点出现故障时,而不是 Ceph 只为一个磁盘恢复放置组(PG),而该节点上的所有 PG 必须恢复该节点内的所有 PG。Ceph 将检测 OSD 是否都停止,并且自动启动恢复过程,称为自我修复。

有三个节点故障场景。以下是替换节点时每个情境的高级工作流:

  • 替换节点,但使用故障节点的根磁盘和 Ceph OSD 磁盘。

    1. 禁用回填。
    2. 替换节点,从旧节点获取磁盘,并将它们添加到新节点。
    3. 启用回填。
  • 替换节点,重新安装操作系统,并使用来自故障节点的 Ceph OSD 磁盘。

    1. 禁用回填。
    2. 创建 Ceph 配置的备份。
    3. 替换节点,再添加来自故障节点的 Ceph OSD 磁盘。
    4. 将磁盘配置为 JBOD。
    5. 安装操作系统。
    6. 恢复 Ceph 配置。
    7. 使用 Ceph 编排器命令和 Ceph 守护进程自动将新节点添加到存储集群。
    8. 启用回填。
  • 替换节点、重新安装操作系统和使用所有新的 Ceph OSD 磁盘。

    1. 禁用回填。
    2. 从存储集群中移除故障节点上的所有 OSD。
    3. 创建 Ceph 配置的备份。
    4. 替换节点,再添加来自故障节点的 Ceph OSD 磁盘。

      1. 将磁盘配置为 JBOD。
    5. 安装操作系统。
    6. 使用 Ceph 编排器命令和 Ceph 守护进程自动将新节点添加到存储集群。
    7. 启用回填。

14.1. 先决条件

  • 一个正在运行的 Red Hat Ceph Storage 集群。
  • 失败的节点。