第 2 章 处理磁盘失败

作为存储管理员,在存储集群的整个生命周期内,您必须处理磁盘故障。在发生实际故障前测试并模拟磁盘出现故障的情况,确保在故障实际发生时已做好准备。

以下是替换失败磁盘的高级别工作流:

  1. 查找失败的 OSD。
  2. 将 OSD 出去。
  3. 在节点上停止 OSD 守护进程。
  4. 检查 Ceph 的状态。
  5. 从 CRUSH map 移除 OSD。
  6. 删除 OSD 授权。
  7. 从存储集群移除 OSD。
  8. 卸载节点上的文件系统。
  9. 替换失败的驱动器。
  10. 将 OSD 后端添加到存储集群。
  11. 检查 Ceph 的状态。

2.1. 先决条件

  • 一个正在运行的 Red Hat Ceph Storage 集群。
  • 一个失败的磁盘。