Prometheus が "no space left on device" エラーが原因でデータを報告できない
Issue
- Web コンソールはリソースの状態を表示しますが、CPU/メモリー使用量、Pod などのメトリクスデータは表示しません。
- 監視ダッシュボードに "no datapoints found" と表示されます。
-
PrometheusPod は、以下のログをストリーミングしています。2022-07-07T14:55:40.065158526Z level=error ts=2022-07-07T14:55:40.065Z caller=scrape.go:1190 component="scrape manager" scrape_pool=serviceMonitor/openshift-multus/monitor-network/0 target=https://x.x.x.x:8443/metrics msg="Scrape commit failed" err="write to WAL: log samples: write /prometheus/wal/00017534: no space left on device" 2022-07-07T14:55:40.160856275Z level=error ts=2022-07-07T14:55:40.160Z caller=scrape.go:1190 component="scrape manager" scrape_pool=serviceMonitor/openshift-monitoring/kubelet/3 target=http://x.x.x.x:9537/metrics msg="Scrape commit failed" err="write to WAL: log samples: write /prometheus/wal/00017534: no space left on device" 2022-07-07T14:55:40.294090053Z level=error ts=2022-07-07T14:55:40.294Z caller=scrape.go:1190 component="scrape manager" scrape_pool=serviceMonitor/openshift-insights/insights-operator/0 target=https://x.x.x.x:8443/metrics msg="Scrape commit failed" err="write to WAL: log samples: write /prometheus/wal/00017534: no space left on device" -
oc adm top nodesを実行すると、以下のエラーが返されます。error: metrics not available yet Prometheusがメトリクスデータのコミットに失敗しています。-
コンポーネント自体は正常に動作しているにもかかわらず、複数のアラートが発生しています。
KubeAPIDown KubeControllerManagerDown KubeletDown KubeSchedulerDown ClusterVersionOperatorDown
Environment
- Red Hat OpenShift Container Platform (RHOCP)
- 4
Subscriber exclusive content
A Red Hat subscription provides unlimited access to our knowledgebase, tools, and much more.