Red Hat Training

A Red Hat training course is available for Red Hat Ceph Storage

第1章 初期のトラブルシューティング

本章では以下について説明します。

1.1. 問題の特定

Red Hat Ceph Storage で直面するエラーの原因を判定するために、構成を確認してから以下の質問に答えてください。

  1. 特定の問題は、サポートされていない構成によって発生する場合があります。お使いの構成がサポートされていることを確認してください。詳細は、 Red Hat Ceph Storage でサポートされる構成 を参照してください。
  2. Ceph のどのコンポーネントで問題が発生しているかご存知ですか?

    1. いいえ。この場合は 「Ceph Storage クラスターの健全性の診断」 に進んでください。
    2. モニター。この場合は 4章モニターのトラブルシューティング に進んでください。
    3. OSD。この場合は 5章OSD のトラブルシューティング に進んでください。
    4. プレイスメントグループ。この場合は 6章プレイスメントグループのトラブルシューティング に進んでください。

1.1.1. Ceph Storage クラスターの健全性の診断

以下の手順では、Ceph Storage クラスターの健全性を診断する基本的なステップを説明します。

  1. クラスターの全体的な状態を確認します。

    # ceph health detail

    このコマンドで HEALTH_WARN または HEALTH_ERR が返される場合は、ceph health コマンド出力について」 を参照してください。

  2. 「Ceph ログについて」 にあるエラーメッセージの Ceph ログを確認します。ログはデフォルトで /var/log/ceph/ ディレクトリーに保存されます。
  3. ログで十分な情報が見つからない場合は、デバッグレベルを上げてから失敗するアクションを再度実行します。2章ロギングの設定 を参照してください。

1.2. ceph health コマンド出力について

ceph health コマンドは Ceph Storage クラスターの状態についての情報を返します。

  • HEALTH_OK は、クラスターが健全であることを示します。
  • HEALTH_WARN は警告です。Ceph が再バランスプロセスを完了した場合などは、HEALTH_OK が自動的に返される場合もあります。ただし、クラスターが長く HEALTH_WARN の状態にある場合は、さらにトラブルシュートを行うことを検討してください。
  • HEALTH_ERR は問題が重大であり、直ちに対応が必要であることを示します。

ceph health detail および ceph -s コマンドを使うとより詳細な出力が返されます。

以下のテーブルでは、モニター、OSD、およびプレイスメントグループに関するよくある HEALTH_ERRHEALTH_WARN のエラーメッセージを示しています。各エラーの内容を説明し、その解決方法が記載された対応セクションも表示しています。

表1.1 モニターに関するエラーメッセージ

エラーメッセージ参照先

HEALTH_WARN

mon.X is down (out of quorum)

「モニターが Quorum 不足 (Out of Quorum)」

clock skew

「Clock Skew」

store is getting too big!

「Monitor ストアが大きくなりすぎている」

表1.2 OSD に関するエラーメッセージ

表1.3 プレイスメントグループに関するエラーメッセージ

1.3. Ceph ログについて

デフォルトでは、Ceph はログを /var/log/ceph/ ディレクトリーに保存します。

<cluster-name>.log は、グローバルのクラスターイベントを含むクラスターログファイルです。このログは、デフォルトで ceph.log と命名されます。メインクラスターログは、モニターホストにのみ格納されます。

OSD と Monitor にはそれぞれのログファイルがあり、<cluster-name>-osd.<number>.log<cluster-name>-mon.<hostname>.log という名前になります。

Ceph サブシステムのデバッグレベルを上げると、Ceph はそのサブシステム向けの新規ログファイルを生成します。ロギングについての詳細は、2章ロギングの設定 を参照してください。

以下のテーブルでは、モニターと OSD に関するよくある Ceph エラーメッセージを示しています。各エラーの内容を説明し、その解決方法が記載された対応セクションも表示しています。

表1.4 モニターに関する Ceph ログのよくあるエラーメッセージ

エラーメッセージログファイル参照先

clock skew

メインクラスターログ

「Clock Skew」

clocks not synchronized

メインクラスターログ

「Clock Skew」

Corruption: error in middle of record

モニターログ

「モニターが Quorum 不足 (Out of Quorum)」

「モニターストアの復旧」

Corruption: 1 missing files

モニターログ

「モニターが Quorum 不足 (Out of Quorum)」

「モニターストアの復旧」

Caught signal (Bus error)

モニターログ

「モニターが Quorum 不足 (Out of Quorum)」

表1.5 OSD に関する Ceph ログのよくあるエラーメッセージ

エラーメッセージログファイル参照先

heartbeat_check: no reply from osd.X

メインクラスターログ

「OSD のフラッピング」

wrongly marked me down

メインクラスターログ

「OSD のフラッピング」

osds have slow requests

メインクラスターログ

「遅延リクエスト、およびリクエストがブロックされる」

FAILED assert(!m_filestore_fail_eio)

OSD ログ

「(1 つ以上の) OSDs Are Down」

FAILED assert(0 == "hit suicide timeout")

OSD ログ

「(1 つ以上の) OSDs Are Down」