OpenShift Container Storage のモニタリング
ストレージダッシュボードを使用した OpenShift Container Storage のモニタリング
概要
第1章 クラスターの正常性
1.1. OpenShift Container Storage の正常性の検証
ストレージの状態は、Persistent Storage および Object Service ダッシュボードに表示されます。
手順
- OpenShift Web コンソールにログインします。
以下の場所にある Status カードを確認します。
- Home → Dashboards → Persistent Storage
Home → Overview → Object Service
緑色のチェックマーク が Status カードに表示される場合、クラスターは正常です。
状態が Healthy ではない場合、現在の状態および表示されるアラートについての詳細は、「ストレージの正常性レベルおよびクラスターの状態」 を参照してください。
1.2. ストレージの正常性レベルおよびクラスターの状態
OpenShift Container Storage に関連するステータス情報およびアラートがストレージダッシュボードに表示されます。
1.2.1. 永続ストレージダッシュボードのインジケーター
Persistent Storage ダッシュボードには、OpenShift Container Storage 全体の状態が永続ボリュームの状態と共に表示されます。
各リソースタイプの状態の種類については、以下の表に一覧表示されています。
表1.1 OpenShift Container Storage 正常性レベル
状態 | アイコン | 説明 |
---|---|---|
UNKNOWN |
| OpenShift Container Storage はデプロイされていないか、または利用できません。 |
緑色のチェックマーク |
| クラスターの状態は正常です。 |
Warning |
| Ceph クラスターが警告状態にある場合。内部モードでは、アラートが問題の詳細と共に表示されます。外部モードでは、アラートは表示されません。 |
Error |
| OCS クラスターでエラーが発生し、一部のコンポーネントが機能しなくなる場合。内部モードでは、アラートが問題の詳細と共に表示されます。外部モードでは、アラートは表示されません。 |
1.2.2. Object Service ダッシュボードのインジケーター
Object Service ダッシュボードには、Multi-Cloud Object Gateway およびクラスター内のオブジェクト要求の状態が表示されます。
各リソースタイプの状態の種類については、以下の表に一覧表示されています。
表1.2 オブジェクトサービスの正常性レベル
状態 | 説明 |
---|---|
緑色のチェックマーク | オブジェクトストレージは正常です。 |
Multicloud Object Gateway is not running | NooBaa システムが見つからない場合に表示されます。 |
All resources are unhealthy | すべての NooBaa プールが正常でない場合に表示されます。 |
Many buckets have issues | バケットの 50%以上でエラーが発生する場合に表示されます。 |
Some buckets have issues | バケットの 30%以上でエラーが発生する場合に表示されます。 |
Unavailable | ネットワークの問題やエラーがある場合に表示されます。 |
1.2.3. Alert パネル
Alert パネルは、クラスターの状態が正常ではない場合に、Persistent Storage ダッシュボードと Object Storage ダッシュボードの両方の Status カードの下に表示されます。
特定のアラートおよびそれらに応答する方法についての情報は、『OpenShift Container Storage のトラブルシューティング』を参照してください。
第2章 メトリクス
2.1. Persistent Storage ダッシュボードでのメトリクスの表示
Persistent Storage ダッシュボードを表示するには、OpenShift Web コンソールで Home → Dashboards → Persistent Storage をクリックします。
図2.1 内部モードの Persistent Storage Overview ダッシュボードの例
Persistent Storage ダッシュボードの以下のカードは、デプロイメントモード(内部または外部)に基づくメトリクスを提供します。
- Details カード
Details カードには、以下が表示されます。
- サービス名
- クラスター名
- システムが実行されるプロバイダーの名前 (例: AWS、VSphere、ベアメタルの場合は「None」)
- モード (内部または外部のいずれかのデプロイメントモード)
- OpenShift Container Storage Operator バージョン。
- Inventory カード
- Inventory カードには、OpenShift Container Storage プロビジョナーでサポートされるアクティブなノード、PVC、および PV の数が表示されます。カードの左側に、ストレージノード、PVC および PV の合計数が表示されます。カードの右側には、Not Ready 状態のストレージノードの数が表示されますが、Pending 状態の PVC と Released 状態の PV の数が表示されます。
外部モードでは、OpenShift Container Storage に専用ノードはないため、ノードの数はデフォルトで 0 になります。
- Status カード
このカードは、クラスターがエラーなしで稼働しているか、または何らかの問題があるかを示します。
内部モードの場合、Data Resiliency (データ回復性) は、レプリカ全体での Ceph のデータリバランスのステータスを示します。内部モードのクラスターが警告またはエラー状態にあると、Alerts セクションが関連するアラートと共に表示されます。
外部モードの場合、Data Resiliency (データ回復性) およびアラートは表示されません。
- Capacity breakdown カード
このカードでは、プロジェクト、ストレージクラス、Pod ごとの容量の内訳を表示できます。カードの上部にあるドロップダウンメニューから、Projects、 Storage Classes および Pods のいずれかを選択できます。これらのオプションは、グラフに表示されるデータをフィルターするために使用します。
オプション 表示 プロジェクト
OpenShift Container ストレージを使用している各プロジェクトの集約された容量と現在使用されている量。
ストレージクラス
OpenShift Container Storage ベースのストレージクラスに基づいて集約容量を表示します。
Pod
OpenShift Container Storage プロビジョナーでサポートされる PVC の使用を試行するすべての Pod。
外部モードでは、このグラフには、使用される容量の詳細のみが表示されます。
- Utilization カード
このカードには、使用済みの容量、1 秒あたりの入出力操作、レイテンシー、スループット、および内部モードのクラスターのリカバリー情報が表示されます。
外部モードでは、このカードには、そのクラスターの使用済みおよび要求される容量情報のみが表示されます。
2.2. Object Service ダッシュボードでのメトリクスの表示
Object Service ダッシュボードを表示するには、OpenShift Web コンソールで Home → Dashboards → Object Service をクリックします。
図2.2 Object Service Overview ダッシュボードの例
以下のメトリクスは、Object Service ダッシュボードで利用できます。
- Details カード
このカードには、以下の情報が表示されます。
- Multicloud Object Gateway (MCG) サービス名。
- システム名。これは MCG 管理ユーザーインターフェースへのハイパーリンクでもあります。
- システムが実行されるプロバイダーの名前 (例: AWS、VSphere、ベアメタルの場合は「None」)
- OpenShift Container Storage Operator バージョン。
- Object Data Reduction カード
- このカードでは、MCG が重複排除と圧縮によりストレージバックエンドリソース消費をどのように最適化するかを確認し、計算される効率性比率(アプリケーションデータと論理データの比較)と、予測された節約の数値(MCG がストレージプロバイダーに送信しなかったバイト数) が表示されます。
- Buckets カード
バケットは、アプリケーションの代わりにデータを保存するために MCG が管理するコンテナーです。これらのバケットは、Object Bucket Claim (オブジェクトバケット要求、OBC) を使用して作成され、アクセスされます。特定のポリシーをバケットに適用して、データの配置、データのスピルオーバー、データの回復性、容量のクォータなどをカスタマイズできます。
このカードでは、オブジェクトバケット (OB) および Object Bucket Claim (オブジェクトバケット要求、OBC) に関する情報が個別に表示されます。OB には、S3 またはユーザーインターフェース (UI) を使用して作成されたすべてのバケットと、OBC には YAML またはコマンドラインインターフェース (CLI) を使用して作成されたすべてのバケットが含まれます。バケットタイプの左側に表示される数は、OB または OBC の合計数です。右側に表示される数字はエラー数であり、エラー数がゼロよりも大きい場合にのみ表示されます。数字をクリックすると、警告またはエラーステータスのあるバケットの一覧を表示できます。
- Resource Providers カード
- このカードには、現在使用中のすべての Multicloud gateway(MCG) リソースの一覧が表示されます。これらのリソースは、バケットポリシーに従ってデータを保存するために使用されます。これらはクラウドベースのリソースまたはベアメタルリソースになります。
- Status カード
このカードは、システムが問題なく稼働しているかどうかを示します。システムが警告またはエラー状態にあると、Alerts セクションが表示され、関連するアラートが表示されます。アラートの右側にあるリンクをクリックして、問題に関する詳細情報を取得できます。ヘルスチェックに関する情報は、クラスターの正常性について参照してください。
このステータスカードの Data Resiliency (データ回復性) は、MCG で保存されたデータに関して回復性の問題があるかどうかを示唆します。
- Capacity breakdown カード
- このカードでは、アプリケーションが MCG を使用してオブジェクトストレージをどのように消費するかを視覚化できます。このカードは、ドロップダウンボックスからプロジェクトおよびバケットクラスごとに内訳を視覚的に表示します。カードの上部にあるドロップダウンメニューから、Projects と Bucket Class のオプションのいずれかを選択できます。これらのオプションは、グラフに表示されるデータを変更するフィルターオプションです。
節約の値については、容量の節約(ベアメタルおよびクラウドベースのストレージプロバイダーに適用される)と egress トラフィックの節約(ストレージクラウドベースのプロバイダーに適用される)の 2 つの要素で構成されます。
- Data Consumption カード
このカードでは、プロバイダーおよび MCG アカウントごとの物理的な使用量(raw ストレージ)、論理的な使用量(使用可能なストレージ)、I/O、および egress トラフィックを表示できます。
MCG アカウントの場合は、I/O 操作と論理的に使用される容量を表示できます。プロバイダーの場合、I/O 操作、物理的および論理的な使用量、および egress を表示できます。
以下の表には、カードの上部にあるドロップダウンメニューからの選択に応じて表示される各種の主要パフォーマンスインジケーター(KPI)が記載されています。
コンシューマータイプ KPI チャートの表示 アカウント
I/O 操作
上位 5 コンシューマーの読み取りおよび書き込み I/O 操作を表示します。すべてのコンシューマーの読み取りおよび書き込みの合計は下部に表示されます。この情報は、アプリケーションまたはアカウントごとにスループット要求 (IOPS) をモニターするのに役立ちます。
アカウント
論理的な使用容量
上位 5 コンシューマーの各アカウントの論理的な使用量の合計を表示します。これは、アプリケーションまたはアカウントごとのスループット需要をモニターするのに役立ちます。
プロバイダー
I/O 操作
プロバイダーがホストするストレージバックエンドにアクセスする際に MCG が生成する I/O 操作の数を表示します。これはクラウド内のトラフィックを把握するのに役立ち、I/O パターンに従ってリソース割り当てを改善することができるため、コストの最適化に役立ちます。
プロバイダー
物理的な使用量 vs 論理的な使用量
プロバイダーごとに物理的な使用量と論理的な使用量を比較して、システム内のデータ消費を表示します。これにより、ストレージリソースを制御し、使用状況の特性やパフォーマンス要件に基づいて配置ストラテジーを立てることができ、これによりコストを最適化できる可能性もあります。
プロバイダー
Egress
各プロバイダーから MCG が取得するデータ量(アプリケーションに関連する読み取りの帯域幅)。これにより、egress パターンに基づいてリソースの割り当てを改善するためにクラウド内のトラフィックを把握し、コストを最適化することができます。
第3章 アラート
3.1. アラートのセットアップ
内部モードのクラスターの場合、ストレージメトリクスサービス、ストレージクラスター、ディスクデバイス、クラスターの正常性、クラスター容量などに関連する各種のアラートが永続ストレージおよびオブジェクトサービスダッシュボードに表示されます。これらのアラートは外部モードでは使用できません。
このパネルには発生するアラートのみが表示されるため、アラートがアラートパネルに表示されるまでに数分の時間がかかる場合があります。
また、追加の詳細情報と共にアラートを表示し、OpenShift Container Platform でアラートの表示をカスタマイズすることもできます。詳細は、「クラスターアラートの管理」を参照してください。
第4章 リモートヘルスモニタリング
OpenShift Container Storage はクラスターの正常性、使用状況、およびクラスターのサイズについての匿名の集計情報を収集し、統合コンポーネントの Telemetry 経由で これを Red Hat にレポートします。Red Hat では、このような情報を OpenShift Container Storage の改善のために、またお客様に影響を与える問題への対応を迅速化するために使用します。
Telemetry 経由でデータを Red Hat にレポートするクラスターは 接続クラスター (connected cluster) と見なされます。
4.1. Telemetry について
Telemetry は厳選されたクラスターモニタリングメトリクスのサブセットを Red Hat に送信します。これらのメトリクスは継続的に送信され、以下について記述します。
- OpenShift Container Storage クラスターのサイズ
- OpenShift Container Storage コンポーネントの正常性およびステータス
- 実行されるアップグレードの正常性およびステータス
- OpenShift Container Storage コンポーネントおよび機能についての制限された使用情報
- クラスターモニタリングコンポーネントによってレポートされるアラートについてのサマリー情報
Red Hat では、リアルタイムでクラスターの健全性をモニターし、お客様に影響を与える問題に随時対応するためにこのデータの継続的なストリームを使用します。またこれにより、Red Hat がサービスへの影響を最小限に抑えつつつアップグレードエクスペリエンスの継続的な改善に向けた OpenShift Container Storage のアップグレードの展開を可能にします。
このデバッグ情報は、サポートケースでレポートされるデータへのアクセスと同じ制限が適用された状態で Red Hat サポートおよびエンジニアリングチームが利用できます。接続クラスターのすべての情報は、OpenShift Container Storage をより使用しやすく、より直感的に使用できるようにするために Red Hat によって使用されます。この情報のいずれもサードパーティーと共有されることはありません。
4.2. Telemetry で収集される情報
Telemetry によって収集される主な情報には、以下が含まれます。
-
Ceph クラスターのサイズ (バイト単位):
{_name_="ceph_cluster_total_bytes"}
-
使用される Ceph クラスターストレージの量 (バイト単位):
{_name_="ceph_cluster_total_used_raw_bytes"}
-
Ceph クラスターの正常性ステータス:
{_name_="ceph_health_status"}
-
osds の合計カウント:
{_name_="job:ceph_osd_metadata:count"}
-
OCP クラスターに存在する永続ボリュームの合計数:
{_name_="job:kube_pv:count"}
-
Ceph クラスターのすべてのプールの iops (reads+writes) 値の合計:
{_name_="job:ceph_pools_iops:total"}
-
Ceph クラスター内のすべてのプールの iops (reads+writes) 値の合計:
{_name_="job:ceph_pools_iops_bytes:total"}
-
実行されている Ceph クラスターバージョンの合計数:
{_name_="job:ceph_versions_running:count"}
-
正常でない noobaa バケットの合計数:
{_name_="job:noobaa_total_unhealthy_buckets:sum"}
-
noobaa バケットの合計数:
{_name_="job:noobaa_bucket_count:sum"}
-
noobaa オブジェクトの合計数:
{_name_="job:noobaa_total_object_count:sum"}
-
noobaa のアカウント数:
{_name_="noobaa_accounts_num"}
-
noobaa のストレージの使用量の合計 (バイト単位):
{_name_="noobaa_total_usage"}
Telemetry は、ユーザー名、パスワード、またはユーザーリソースの名前またはアドレスなどの識別情報を収集しません。上記の Telemetry 情報に加え、NooBaa はアカウント、バケット、オブジェクト、容量、ノード、および接続性の正常性についての統計情報を phonehome.noobaa.com に送信します。