Red Hat Training

A Red Hat training course is available for OpenShift Container Platform

第26章 Node Problem Detector

26.1. 概要

Node Problem Detector (ノード問題検出機能) は特定の問題を検出し、それらの問題を API サーバーに報告することで、ノードの正常性をモニターします。Node Problem Detector は、各ノードで daemonSet として実行されます。

重要

Node Problem Detector はテクノロジープレビュー機能です。テクノロジープレビュー機能は、Red Hat の実稼働環境でのサービスレベルアグリーメント (SLA) ではサポートされていないため、Red Hat では実稼働環境での使用を推奨していません。テクノロジープレビューの機能は、最新の製品機能をいち早く提供して、開発段階で機能のテストを行いフィードバックを提供していただくことを目的としています。

Red Hat のテクノロジープレビュー機能のサポートについての詳細は、https://access.redhat.com/support/offerings/techpreview/ を参照してください。

Node Problem Detector はシステムログを読み取り、特定のエントリーの有無を監視し、コントロールプレーンにそれらの問題を表示します。これは、oc get node および oc get event などの OpenShift Container Platform のコマンドを使用して表示することができます。これらの問題については、適宜修正するようアクションを実行するか、または OpenShift Container Platform ログモニターリング などの選択可能なツールを使用して、メッセージをキャプチャーすることができます。検出される問題は以下のいずれかのカテゴリーに分類できます。

  • NodeCondition: ノードを Pod に対して利用不可にする永続的な問題です。ノードの状態は、ホストが再起動されるまでクリアされません。
  • Event: ノードに制限的な影響を与える一時的な問題で、情報を提供します。

Node Problem Detector は以下を検出できます。

  • コンテナーランタイムの問題:

    • 反応しないランタイムデーモン
  • ハードウェアの問題:

    • 正常でない CPU
    • 正常でないメモリー
    • 正常でないディスク
  • カーネルの問題:

    • カーネルのデッドロック状態
    • 破損したファイルシステム
    • 反応しないランタイムデーモン
  • インフラストラクチャーデーモンの問題:

    • NTP サービスの停止