13.3. NVIDIA GPU 管理ダッシュボードの使用

OpenShift Console NVIDIA GPU プラグインをデプロイしたら、ログイン認証情報を使用して OpenShift Container Platform Web コンソールにログインし、Administrator パースペクティブにアクセスします。

変更を表示するには、コンソールを更新して、ComputeGPU タブを確認する必要があります。

13.3.1. クラスター GPU の概要の表示

Home セクションで Overview を選択すると、Overview ページでクラスター GPU のステータスを表示できます。

Overview ページには、以下を含むクラスター GPU に関する情報が含まれます。

  • GPU プロバイダーの詳細
  • GPU のステータス
  • GPU のクラスター使用率

13.3.2. GPU ダッシュボードの表示

OpenShift コンソールの Compute セクションで GPU を選択すると、NVIDIA GPU 管理ダッシュボードを表示できます。

GPU ダッシュボードのチャートには以下が含まれます。

  • GPU 使用率: グラフィックエンジンがアクティブである時間の比率を示し、DCGM_FI_PROF_GR_ENGINE_ACTIVE メトリックに基づいています。
  • メモリー使用率: GPU によって使用されているメモリーを示し、DCGM_FI_DEV_MEM_COPY_UTIL メトリックに基づいています。
  • エンコーダーの使用率: ビデオエンコーダーの使用率を示し、DCGM_FI_DEV_ENC_UTIL メトリックに基づいています。
  • デコーダーの使用率: エンコーダーの使用率: ビデオデコーダーの使用率を示し、DCGM_FI_DEV_DEC_UTIL メトリックに基づいています。
  • 消費電力: GPU の平均電力使用量をワットで示し、DCGM_FI_DEV_POWER_USAGE メトリックに基づいています。
  • GPU 温度: 現在の GPU 温度を示し、DCGM_FI_DEV_GPU_TEMP メトリックに基づいています。実際の数はメトリックを介して公開されないため、最大値は 110 に設定されています。これは経験的な数です。
  • GPU クロック速度: GPU が使用する平均クロック速度を表示し、DCGM_FI_DEV_SM_CLOCK メトリクスに基づいています。
  • メモリークロックスピード: メモリーで使用される平均クロック速度示し、DCGM_FI_DEV_MEM_CLOCK メトリックに基づいています。

13.3.3. GPU メトリクスの表示

GPU のメトリックを表示するには、各 GPU の下部にあるメトリクスを選択して Metrics ページを表示します。

Metrics ページで、以下を実行できます。

  • メトリクスの更新レートの指定
  • クエリーの追加、実行、無効化、および削除
  • メトリクスの挿入
  • ズームビューのリセット