5.4. OSD ドライブの交換

Ceph は耐障害性を確保できるように設計されているため、データを損失せずに動作が degraded の状態になっています。そのため、データストレージドライブに障害が発生しても、Ceph は動作します。障害が発生したドライブのコンテキストでは、パフォーマンスが degraded した状態は、他の OSD に保存されているデータの追加コピーが、クラスター内の他の OSD に自動的にバックフィルされることを意味します。ただし、このような場合は、障害の発生した OSD ドライブを交換し、手動で OSD を再作成します。

ドライブに障害が発生すると、Ceph は OSD を down として報告します。

HEALTH_WARN 1/3 in osds are down
osd.0 is down since epoch 23, last address 192.168.106.220:6800/11080
注記

Ceph は、ネットワークやパーミッションの問題により OSD を down とマークすることもできます。詳細は、Down OSD を参照してください。

最近のサーバーは、ホットスワップ対応のドライブを搭載しているのが一般的であり、ノードをダウンさせることなく、障害が発生したドライブを抜き取り、新しいドライブと交換することができます。手順全体には、以下のステップが含まれます。

  1. Ceph クラスターから OSD を取り除きます。詳細は、Ceph クラスターからの OSD の削除の手順を参照してください。
  2. ドライブを交換します。詳細は、物理ドライブの置き換え セクションを参照してください。
  3. OSD をクラスターに追加します。詳細は、OSD の Ceph クラスターへの追加の手順を参照してください。

前提条件

  • 稼働中の Red Hat Ceph Storage クラスターがある。
  • Ceph Monitor ノードへの root レベルのアクセス。
  • 少なくとも 1 つの OSD が down になっています。

Ceph クラスターからの OSD の削除

  1. Cephadm シェルにログインします。

    例:

    [root@host01 ~]# cephadm shell

  2. down になっている OSD を特定します。

    例:

    [ceph: root@host01 /]# ceph osd tree | grep -i down
    ID  CLASS  WEIGHT   TYPE NAME           STATUS  REWEIGHT  PRI-AFF
     0   hdd 0.00999        osd.0     down  1.00000          1.00000

  3. クラスターがデータをリバランスして他の OSD にそのテータをコピーできるように、OSD を out としてマークします。

    構文

    ceph osd out OSD_ID.

    例:

    [ceph: root@host01 /]# ceph osd out osd.0
    marked out osd.0.

    注記

    OSD が down していると、mon_osd_down_out_interval パラメーターに基づいて OSD からハートビートパケットを受信しないと、Ceph は、600 秒後に OSD を自動的に out とマークします。この場合、障害が発生した OSD データのコピーを持つ他の OSD がバックフィルを開始し、クラスター内部に必要な数のコピーが存在するようにします。クラスターがバックフィル状態である間、クラスターの状態は degraded します。

  4. 障害が発生した OSD がバックフィルされていることを確認します。

    例:

    [ceph: root@host01 /]# ceph -w | grep backfill
    2022-05-02 04:48:03.403872 mon.0 [INF] pgmap v10293282: 431 pgs: 1 active+undersized+degraded+remapped+backfilling, 28 active+undersized+degraded, 49 active+undersized+degraded+remapped+wait_backfill, 59 stale+active+clean, 294 active+clean; 72347 MB data, 101302 MB used, 1624 GB / 1722 GB avail; 227 kB/s rd, 1358 B/s wr, 12 op/s; 10626/35917 objects degraded (29.585%); 6757/35917 objects misplaced (18.813%); 63500 kB/s, 15 objects/s recovering
    2022-05-02 04:48:04.414397 mon.0 [INF] pgmap v10293283: 431 pgs: 2 active+undersized+degraded+remapped+backfilling, 75 active+undersized+degraded+remapped+wait_backfill, 59 stale+active+clean, 295 active+clean; 72347 MB data, 101398 MB used, 1623 GB / 1722 GB avail; 969 kB/s rd, 6778 B/s wr, 32 op/s; 10626/35917 objects degraded (29.585%); 10580/35917 objects misplaced (29.457%); 125 MB/s, 31 objects/s recovering
    2022-05-02 04:48:00.380063 osd.1 [INF] 0.6f starting backfill to osd.0 from (0'0,0'0] MAX to 2521'166639
    2022-05-02 04:48:00.380139 osd.1 [INF] 0.48 starting backfill to osd.0 from (0'0,0'0] MAX to 2513'43079
    2022-05-02 04:48:00.380260 osd.1 [INF] 0.d starting backfill to osd.0 from (0'0,0'0] MAX to 2513'136847
    2022-05-02 04:48:00.380849 osd.1 [INF] 0.71 starting backfill to osd.0 from (0'0,0'0] MAX to 2331'28496
    2022-05-02 04:48:00.381027 osd.1 [INF] 0.51 starting backfill to osd.0 from (0'0,0'0] MAX to 2513'87544

    配置グループの状態が active+clean から active になり、一部の劣化したオブジェクトに変化し、移行が完了すると最終的に active+clean に変化するはずです。

  5. OSD を停止します。

    構文

    ceph orch daemon stop OSD_ID

    例:

    [ceph: root@host01 /]# ceph orch daemon stop osd.0

  6. ストレージクラスターから OSD を削除します。

    構文

    ceph orch osd rm OSD_ID --replace

    例:

    [ceph: root@host01 /]# ceph orch osd rm 0 --replace

    OSD_IDは保存されます。

物理ドライブの交換

物理ドライブの交換方法の詳細については、ハードウェアノードのマニュアルを参照してください。

  1. ドライブがホットスワップ可能な場合は、故障したドライブを新しいものと交換します。
  2. ドライブがホットスワップに対応しておらず、ノードに複数の OSD が含まれる場合は、ノード全体をシャットダウンして物理ドライブを交換する必要がある場合があります。クラスターのバックフィルを防ぐことを検討してください。詳細は、Red Hat Ceph Storage トラブルシューティングガイドリバランスの停止および開始 の章を参照してください。
  3. ドライブが /dev/ ディレクトリー配下に表示されたら、ドライブパスを書き留めます。
  4. OSD を手動で追加する必要がある場合には、OSD ドライブを見つけ、ディスクをフォーマットします。

Ceph クラスターへの OSD の追加

  1. 新しいドライブを挿入したら、以下のオプションを使用して OSD をデプロイすることができます。

    • OSD は、--unmanaged パラメーターが設定されていない場合は、Ceph Orchestrator によって自動的にデプロイされます。

      例:

      [ceph: root@host01 /]# ceph orch apply osd --all-available-devices

    • unmanaged パラメーターを true に設定して、利用可能なすべてのデバイスに OSD をデプロイします。

      例:

      [ceph: root@host01 /]# ceph orch apply osd --all-available-devices --unmanaged=true

    • 特定のデバイスやホストに OSD をデプロイします。

      例:

      [ceph: root@host01 /]# ceph orch daemon add osd host02:/dev/sdb

  2. CRUSH 階層が正確であることを確認します。

    例:

    [ceph: root@host01 /]# ceph osd tree

関連情報