Azure Red Hat OpenShift (ARO) での SREMachineHealthCheckRemediationRateHigh
Environment
- Azure Red Hat OpenShift (ARO) 4
 - OpenShift Container Platform
 
Issue
- SREMachineHealthCheckRemediationRateHigh というタイトルの Alertmanager アラートが Azure Red Hat OpenShift (ARO) クラスターで発生しています。
 
Resolution
- このアラートは、ワーカーノードが NotReady となり、MachineHealthCheck 機能が 1 時間以内に少なくとも 2 回修正を試みた場合に発生します。 MachineHealthCheck は、マスターノードの修正は試みません。
 - ノードが NotReady になる原因はさまざまですが、アラートが発生した場合は、個々のクラスターノードへの負担を避けるために、複数のレプリカの実行やアフィニティー/非アフィニティールールの設定を含む高可用性プラクティスを使用して、アプリケーションが構築されていることを確認することをまずお勧めします。
 - ワーカーノードが 
oc adm top nodeでオーバーロードされていないことを確認し、ワークロードリソースの需要に対応するために、クラスターのスケールアップを検討してください。 - クラスターが アップグレード中にスタックしていないこと を確認してください。
 - ノード管理、制限範囲、および コンテナー管理 に関するドキュメントを確認してください。
 - MachineHealthCheck 自体のステータスを表示するには、以下を使用します。
 
oc describe mhc -n openshift-machine-api aro-machinehealthcheck
- 問題が解決しない場合は、調査のためサポートケースを開いてください。
 
Root Cause
SREMachineHealthCheckRemediationRateHigh アラートは、ARO クラスターの正常性を維持および監視するために ARO SRE によって設定されます。 このアラートは、クラスター内の MachineHealthCheck 機能 を監視することを目的としています。 MachineHealthCheck の詳細は、公式ドキュメントを参照してください。
このアラートは、以下のようにすべての ARO クラスターで PrometheusRule としてデプロイされます。
apiVersion: monitoring.coreos.com/v1
kind: PrometheusRule
metadata:
  name: mhc-remediation-alert
  namespace: openshift-machine-api
  labels:
    prometheus: k8s
    role: alert-rules
spec:
  groups:
  - name: sre-mhc-remediation-alert
    rules:
    - alert: SREMachineHealthCheckRemediationRateHigh
      expr: increase(mapi_machinehealthcheck_remediation_success_total [60m]) > 1
      Annotations:
        Message: worker nodes have been remediated 2 or more times in the last hour this may indicate an unstable workload running on the cluster
      labels:
        severity: warning
MachineHealthCheck では、このアラートは、ノードが過去 1 時間に 2 回以上再作成されたことを示しています。これは、クラスター内のリソース消費またはその他の問題を示している可能性があります。 MachineHealthCheck は、NotReady 状態のワーカーノードが複数ある場合は修正しません。
アラートを緩和する方法は、上記の解決策のセクションを参照してください。 この PrometheusRule または MachineHealthCheck リソースの変更または削除は、サポートされていません。
このドキュメントは、IPI または UPI インストール方法を使用して Azure でホストされる OpenShift クラスターや OpenShift Dedicated 環境など、Azure Red Hat OpenShift 以外のクラスターには適用されません。
This solution is part of Red Hat’s fast-track publication program, providing a huge library of solutions that Red Hat engineers have created while supporting our customers. To give you the knowledge you need the instant it becomes available, these articles may be presented in a raw and unedited form.
Comments