OpenShift Container Storage のモニターリング

Red Hat OpenShift Container Storage 4.6

ストレージダッシュボードを使用した OpenShift Container Storage のモニターリング

概要

永続オブジェクトサービスのダッシュボードを使用して Red Hat OpenShift Container Storage をモニターリングする方法については、本書を参照してください。

第1章 クラスターの正常性

1.1. OpenShift Container Storage の正常性の検証

ストレージの状態は、Persistent Storage および Object Service ダッシュボードに表示されます。

手順

  1. OpenShift Web コンソールにログインします。
  2. 以下の場所にある Status カードを確認します。

    • HomeDashboardsPersistent Storage
    • HomeOverviewObject Service

      緑色のチェックマーク が Status カードに表示される場合、クラスターは正常です。

      状態が Healthy でない場合、現在の状態および表示されるアラートについての詳細は、「ストレージの正常性レベルおよびクラスターの状態」 を参照してください。

1.2. ストレージの正常性レベルおよびクラスターの状態

OpenShift Container Storage に関連するステータス情報およびアラートがストレージダッシュボードに表示されます。

1.2.1. 永続ストレージダッシュボードのインジケーター

Persistent Storage ダッシュボードには、OpenShift Container Storage 全体の状態が永続ボリュームの状態と共に表示されます。

各リソースタイプの状態の種類については、以下の表に一覧表示されています。

表1.1 OpenShift Container Storage 正常性レベル

状態アイコン説明

UNKNOWN

unknown icon

OpenShift Container Storage はデプロイされていないか、または利用できません。

緑色のチェックマーク

ocs health icon green

クラスターの状態は正常です。

Warning

ocs health icon yellow

OpenShift Container Storage クラスターが警告の状態にあることを確認します。内部モードでは、アラートが問題の詳細と共に表示されます。外部モードでは、アラートは表示されません。

Error

ocs health icon red

OpenShift Container Storag クラスターでエラーが発生し、一部のコンポーネントが機能しなくなる場合。内部モードでは、アラートが問題の詳細と共に表示されます。外部モードでは、アラートは表示されません。

1.2.2. Object Service ダッシュボードのインジケーター

Object Service ダッシュボードには、Multi-Cloud Object Gateway およびクラスター内のオブジェクト要求の状態が表示されます。

各リソースタイプの状態の種類については、以下の表に一覧表示されています。

表1.2 オブジェクトサービスの正常性レベル

状態説明

緑色のチェックマーク ocs health icon green

オブジェクトストレージは正常です。

Multicloud Object Gateway is not running

NooBaa システムが見つからない場合に表示されます。

All resources are unhealthy

すべての NooBaa プールが正常でない場合に表示されます。

Many buckets have issues

バケットの 50% 以上でエラーが発生する場合に表示されます。

Some buckets have issues

バケットの 30% 以上でエラーが発生する場合に表示されます。

Unavailable

ネットワークの問題やエラーがある場合に表示されます。

1.2.3. Alert パネル

Alert パネルは、クラスターの状態が正常ではない場合に、Persistent Storage ダッシュボードと Object Storage ダッシュボードの両方の Status カードの下に表示されます。

特定のアラートおよびそれらに応答する方法についての情報は、OpenShift Container Storage のトラブルシューティング を参照してください。

第2章 メトリクス

2.1. Persistent Storage ダッシュボードでのメトリクス

Persistent Storage ダッシュボードを表示するには、OpenShift Web コンソールで Home → Dashboards → Persistent Storage をクリックします。

図2.1 内部モードの Persistent Storage Overview ダッシュボードの例

Screenshot of persistent storage dashboard

Persistent Storage ダッシュボードの以下のカードは、デプロイメントモード (内部または外部) に基づくメトリクスを提供します。

Details カード

Details カードには、以下が表示されます。

  • サービス名
  • クラスター名
  • システムが実行されるプロバイダーの名前 (例: AWS、VSphere、ベアメタルの場合は None)
  • モード (内部または外部のいずれかのデプロイメントモード)
  • OpenShift Container Storage Operator バージョン。
Inventory カード
Inventory カードには、OpenShift Container Storage プロビジョナーでサポートされるアクティブなノード、PVC、および PV の数が表示されます。カードの左側に、ストレージノード、PVC および PV の合計数が表示されます。カードの右側には、Not Ready 状態のストレージノードの数が表示されますが、Pending 状態の PVC と Released 状態の PV の数が表示されます。
注記

外部モードでは、OpenShift Container Storage に専用ノードはないため、ノードの数はデフォルトで 0 になります。

Status カード

このカードは、クラスターがエラーなしで稼働しているか、または何らかの問題があるかを示します。

内部モードの場合、Data Resiliency (データ回復性) は、レプリカ全体での Ceph のデータリバランスのステータスを示します。内部モードのクラスターが警告またはエラー状態にあると、Alerts セクションが関連するアラートと共に表示されます。

外部モードの場合、Data Resiliency (データ回復性) およびアラートは表示されません。

Capacity breakdown カード

このカードでは、プロジェクト、ストレージクラス、Pod ごとの容量の内訳を表示できます。カードの上部にあるドロップダウンメニューから、Projects、 Storage Classes および Pods のいずれかを選択できます。これらのオプションは、グラフに表示されるデータをフィルターするために使用します。

オプション表示

プロジェクト

OpenShift Container ストレージを使用している各プロジェクトから集約された容量と現在使用されている量。

ストレージクラス

OpenShift Container Storage ベースのストレージクラスに基づいて集約容量を表示します。

Pod

OpenShift Container Storage プロビジョナーでサポートされる PVC の使用を試行するすべての Pod。

注記

外部モードでは、このグラフには、使用される容量の詳細のみが表示されます。

Utilization カード

このカードには、使用済みの容量、1 秒あたりの入出力操作、レイテンシー、スループット、および内部モードのクラスターのリカバリー情報が表示されます。

外部モードでは、このカードには、そのクラスターの使用済みおよび要求される容量情報のみが表示されます。

Storage Efficiency カード
このカードには、システム全体の圧縮比率と、圧縮のあるストレージクラスを使用して Persistent Volume Claim(永続ボリューム要求、PVC) 用に保存される領域のサイズが表示されます。

2.2. Object Service ダッシュボードでのメトリクス

Object Service ダッシュボードを表示するには、OpenShift Web コンソールで Home → Dashboards → Object Service をクリックします。

重要

OpenShift Container Storage 4.6 のアップグレード後の Object Service ダッシュボードで Object Gateway (RGW) メトリクスを表示するには、モニターリングを有効にする必要があります。RGW のモニターリングを有効にするには、Object Service ダッシュボードのモニターリングの有効化 について参照してください。

図2.2 Object Service Overview ダッシュボードの例

Screenshot of object service dashboard

以下のメトリクスは、Object Service ダッシュボードで利用できます。

Details カード

このカードには、以下の情報が表示されます。

  • サービス名: Multicloud Object Gateway (MCG) サービス名。
  • System Name: Multicloud Object Gateway および RADOS Object Gateway のシステム名。Multicloud Object Gateway のシステム名は MCG 管理ユーザーインターフェイスへのハイパーリンクでもあります。
  • プロバイダー: システムが実行されるプロバイダーの名前 (例: AWS、VSphere、ベアメタルの場合は None)
  • バージョン: OpenShift Container Storage Operator バージョン。
Storage Efficiency カード
このカードでは、MCG が重複排除と圧縮によりストレージバックエンドリソース消費をどのように最適化するかを確認し、ベアメタルとクラウドベースのストレージの容量およびクラウドベースのストレージの egress に基づいて計算される効率性比率 (アプリケーションデータと論理データの比較) と、予測された節約の数値 (MCG がストレージプロバイダーに送信しなかったバイト数) が表示されます。
Buckets カード

バケットは、アプリケーションの代わりにデータを保存するために MCG および RADOS Object Gateway が管理するコンテナーです。これらのバケットは、Object Bucket Claim (オブジェクトバケット要求、OBC) を使用して作成され、アクセスされます。特定のポリシーをバケットに適用して、データの配置、データのスピルオーバー、データの回復性、容量のクォータなどをカスタマイズできます。

このカードでは、オブジェクトバケット (OB) および Object Bucket Claim (オブジェクトバケット要求、OBC) に関する情報が個別に表示されます。OB には、S3 またはユーザーインターフェイス (UI) を使用して作成されたすべてのバケットと、OBC には YAML またはコマンドラインインターフェイス (CLI) を使用して作成されたすべてのバケットが含まれます。バケットタイプの左側に表示される数は、OB または OBC の合計数です。右側に表示される数字はエラー数であり、エラー数がゼロよりも大きい場合にのみ表示されます。数字をクリックすると、警告またはエラーステータスのあるバケットの一覧を表示できます。

Resource Providers カード
このカードには、現在使用中のすべての Multicloud Object Gateway (MCG) および RADOS Object Gateway リソースの一覧が表示されます。これらのリソースは、バケットポリシーに従ってデータを保存するために使用されます。これらはクラウドベースのリソースまたはベアメタルリソースになります。
Status カード

このカードは、システムとそのサービスが問題なく実行されているかどうかを示します。システムが警告またはエラー状態にあると、Alerts セクションが表示され、関連するアラートが表示されます。問題に関する詳細情報については、各アラートの横にあるアラートリンクをクリックしてください。ヘルスチェックに関する情報は、クラスターの正常性 について参照してください。

複数のオブジェクトストレージサービスがクラスターで利用可能な場合は、サービスタイプ (Object Service または Data Resiliency など) をクリックして個々のサービスの状態を表示します。

このステータスカードの Data Resiliency (データ回復性) では、Multicloud Object Gateway および RADOS Object Gateway で保存されたデータに関して回復性の問題があるかどうかが分かります。

Capacity breakdown カード
このカードでは、アプリケーションが Multicloud Object Gateway および RADOS Object Gateway でオブジェクトストレージをどのように消費するかを視覚化できます。Service Type ドロップダウンを使用して、Multicloud Gateway および Object Gateway の容量の内訳を個別に表示できます。Multicloud Object Gateway を表示する場合、Break By ドロップダウンを使用して、グラフ内で Projects または Bucket Class 別に結果をフィルターリングできます。
Performance カード

このカードでは、Multicloud Object Gateway または RADOS Object Gateway のパフォーマンスを表示できます。Service Type ドロップダウンを使用して、表示するサービスタイプを選択します。

Multicloud Object Gateway アカウントの場合は、I/O 操作と論理的に使用される容量を表示できます。プロバイダーの場合、I/O 操作、物理的および論理的な使用量、および egress を表示できます。

以下の表は、カードの上部にあるドロップダウンメニューからの選択に応じて表示される各種のメトリクスを示しています。

表2.1 Multicloud Object Gateway のインジケーター

コンシューマータイプメトリクスチャートの表示

アカウント

I/O 操作

上位 5 コンシューマーの読み取りおよび書き込み I/O 操作を表示します。すべてのコンシューマーの読み取りおよび書き込みの合計は下部に表示されます。この情報は、アプリケーションまたはアカウントごとにスループット要求 (IOPS) をモニターするのに役立ちます。

アカウント

論理的な使用容量

上位 5 コンシューマーの各アカウントの論理的な使用量の合計を表示します。これは、アプリケーションまたはアカウントごとのスループット需要をモニターするのに役立ちます。

プロバイダー

I/O 操作

プロバイダーがホストするストレージバックエンドにアクセスする際に MCG が生成する I/O 操作の数を表示します。これはクラウド内のトラフィックを把握するのに役立ち、I/O パターンに従ってリソース割り当てを改善することができるため、コストの最適化に役立ちます。

プロバイダー

物理的な使用量 vs 論理的な使用量

プロバイダーごとに物理的な使用量と論理的な使用量を比較して、システム内のデータ消費を表示します。これにより、ストレージリソースを制御し、使用状況の特性やパフォーマンス要件に基づいて配置ストラテジーを立てることができ、これによりコストを最適化できる可能性もあります。

プロバイダー

Egress

各プロバイダーから MCG が取得するデータ量 (アプリケーションに関連する読み取りの帯域幅)。これにより、egress パターンに基づいてリソースの割り当てを改善するためにクラウド内のトラフィックを把握し、コストを最適化することができます。

アカウント

I/O 操作

上位 5 コンシューマーの読み取りおよび書き込み I/O 操作を表示します。すべてのコンシューマーの読み取りおよび書き込みの合計は下部に表示されます。この情報は、アプリケーションまたはアカウントごとにスループット要求 (IOPS) をモニターするのに役立ちます。

アカウント

論理的な使用容量

上位 5 コンシューマーの各アカウントの論理的な使用量の合計を表示します。これは、アプリケーションまたはアカウントごとのスループット需要をモニターするのに役立ちます。

RADOS Object Gateway では、Metric ドロップダウンを使用して Latency または Bandwidth を表示できます。

  • レイテンシー: RADOS Object Gateway インスタンス全体の GET/PUT のレイテンシーの平均的な差異を視覚的に表示します。
  • 帯域幅: RADOS Object Gateway インスタンス間の GET/PUT 帯域幅の合計を視覚的に表示します。
アクティビティーカード

このカードは、OpenShift Container Storage クラスターで発生しているアクティビティーや、最近発生したアクティビティーが表示されます。カードは 2 つのセクションに分かれます。

  • Ongoing: データ回復性および OpenShift Container Storage Operator のアップグレードに関連する継続中のアクティビティーの進捗を表示します。
  • recent Events: openshift-storage namespace で発生するイベントの一覧を表示します。

第3章 アラート

3.1. アラートのセットアップ

内部モードのクラスターの場合、ストレージメトリクスサービス、ストレージクラスター、ディスクデバイス、クラスターの正常性、クラスター容量などに関連する各種のアラートが永続ストレージおよびオブジェクトサービスダッシュボードに表示されます。これらのアラートは外部モードでは使用できません。

注記

このパネルには発生するアラートのみが表示されるため、アラートがアラートパネルに表示されるまでに数分の時間がかかる場合があります。

また、追加の詳細情報と共にアラートを表示し、OpenShift Container Platform でアラートの表示をカスタマイズすることもできます。

詳細は、アラートの管理 を参照してください。

第4章 リモートヘルスモニターリング

OpenShift Container Storage はクラスターの正常性、使用状況、およびクラスターのサイズについての匿名の集計情報を収集し、統合コンポーネントの Telemetry 経由で これを Red Hat にレポートします。Red Hat では、このような情報を OpenShift Container Storage の改善のために、またお客様に影響を与える問題への対応を迅速化するために使用します。

Telemetry 経由でデータを Red Hat にレポートするクラスターは 接続クラスター (connected cluster) と見なされます。

4.1. Telemetry について

Telemetry は厳選されたクラスターモニタリングメトリクスのサブセットを Red Hat に送信します。これらのメトリクスは継続的に送信され、以下について記述します。

  • OpenShift Container Storage クラスターのサイズ
  • OpenShift Container Storage コンポーネントの正常性およびステータス
  • 実行されるアップグレードの正常性およびステータス
  • OpenShift Container Storage コンポーネントおよび機能についての制限された使用情報
  • クラスターモニターリングコンポーネントによってレポートされるアラートについてのサマリー情報

Red Hat では、リアルタイムでクラスターの健全性をモニターし、お客様に影響を与える問題に随時対応するためにこのデータの継続的なストリームを使用します。またこれにより、Red Hat がサービスへの影響を最小限に抑えつつつアップグレードエクスペリエンスの継続的な改善に向けた OpenShift Container Storage のアップグレードの展開を可能にします。

このデバッグ情報は、サポートケースでレポートされるデータへのアクセスと同じ制限が適用された状態で Red Hat サポートおよびエンジニアリングチームが利用できます。接続クラスターのすべての情報は、OpenShift Container Storage をより使用しやすく、より直感的に使用できるようにするために Red Hat によって使用されます。この情報のいずれもサードパーティーと共有されることはありません。

4.2. Telemetry で収集される情報

Telemetry によって収集される主な情報には、以下が含まれます。

  • Ceph クラスターのサイズ (バイト単位): "ceph_cluster_total_bytes"
  • 使用される Ceph クラスターストレージの量 (バイト単位): "ceph_cluster_total_used_raw_bytes"
  • Ceph クラスターの正常性ステータス: "ceph_health_status"
  • osds の合計カウント: "job:ceph_osd_metadata:count"
  • RHOCP クラスターに存在する永続ボリュームの合計数: "job:kube_pv:count"
  • Ceph クラスターのすべてのプールの iops (reads+writes) 値の合計: "job:ceph_pools_iops:total"
  • Ceph クラスター内のすべてのプールの iops (reads+writes) 値の合計: "job:ceph_pools_iops_bytes:total"
  • 実行されている Ceph クラスターバージョンの合計数: "job:ceph_versions_running:count"
  • 正常でない noobaa バケットの合計数: "job:noobaa_total_unhealthy_buckets:sum"
  • noobaa バケットの合計数: "job:noobaa_bucket_count:sum"
  • noobaa オブジェクトの合計数: "job:noobaa_total_object_count:sum"
  • noobaa のアカウント数: "noobaa_accounts_num"
  • noobaa のストレージの使用量の合計 (バイト単位): "job:noobaa_total_object_count:sum"
  • 特定のストレージプロビジョナーから PVC によって要求されるストレージの合計量 (バイト単位): "cluster:kube_persistentvolumeclaim_resource_requests_storage_bytes:provisioner:sum"
  • 特定のストレージプロビジョナーから PVC によって使用されるストレージの合計量 (バイト単位): "cluster:kubelet_volume_stats_used_bytes:provisioner:sum"

Telemetry は、ユーザー名、パスワード、またはユーザーリソースの名前またはアドレスなどの識別情報を収集しません。上記の Telemetry 情報に加え、NooBaa はアカウント、バケット、オブジェクト、容量、ノード、および接続性の正常性についての統計情報を phonehome.noobaa.com に送信します。