12.3. 了解 OpenShift Logging 警报

所有日志记录收集器警报都列在 OpenShift Container Platform Web 控制台的 Alerting UI 中。

12.3.1. 查看日志记录收集器警报

警报显示在 OpenShift Container Platform web 控制台中,在 Alerting UI 的 Alerts 选项卡中显示。警报处于以下状态之一:

  • Firing:在超时期限内警报条件为 true。点击在触发警报末尾的 Options 菜单,以查看更多信息或使警告静音。
  • Pending:警报条件当前为 true,但尚未达到超时时间。
  • Not Firing:当前未触发警报。

流程

查看 OpenShift Logging 和其他 OpenShift Container Platform 警报:

  1. 在 OpenShift Container Platform 控制台中点 MonitoringAlerting
  2. 点击 Alerts 标签页。根据所选择的过滤器,列出警报。

其他资源

  • 如需有关 Alerting UI 的更多信息,请参阅管理警报

12.3.2. 关于日志记录收集器警报

以下警报由日志记录收集器生成。您可以在 OpenShift Container Platform web 控制台的 Alerting UI 的 Alerts 页面中查看这些警报。

表 12.1. Fluentd Prometheus 警报

警报消息描述重要性

FluentDHighErrorRate

<value> of records have resulted in an error by fluentd <instance>.

FluentD 输出错误数量很高,在前 15 分钟中默认超过 10。

Warning

FluentdNodeDown

Prometheus could not scrape fluentd <instance> for more than 10m.

Fluentd 报告 Prometheus 可能无法抓取特定的 Fluentd 实例。

Critical

FluentdQueueLengthIncreasing

In the last 12h, fluentd <instance> buffer queue length constantly increased more than 1.Current value is <value>.

Fluentd 报告队列大小正在增加。

Critical

FluentDVeryHighErrorRate

<value> of records have resulted in an error by fluentd <instance>.

FluentD 输出错误的数量非常大,在之前的 15 分钟中,默认情况下超过 25 个。

Critical

12.3.3. 关于 Elasticsearch 警报规则

您可以在 Prometheus 中查看这些警报规则。

表 12.2. 警报规则

警报描述重要性

ElasticsearchClusterNotHealthy

集群健康状态处于 RED 至少 2 分钟。集群不接受写操作,分片可能缺失,或者master 节点尚未选定。

Critical

ElasticsearchClusterNotHealthy

集群健康状态为 YELLOW 至少 20 分钟。某些分片副本尚未分配。

警告

ElasticsearchDiskSpaceRunningLow

集群预期在以后的 6 小时内处于磁盘空间之外。

Critical

ElasticsearchHighFileDescriptorUsage

在下一个小时内,集群预计会在下一个小时内消耗掉所有文件描述符。

警告

ElasticsearchJVMHeapUseHigh

指定节点上的 JVM 堆使用率很高。

警报

ElasticsearchNodeDiskWatermarkReached

由于可用磁盘空间较低,指定节点达到低水位线。分片无法再分配给此节点。应该考虑向节点添加更多磁盘空间。

info

ElasticsearchNodeDiskWatermarkReached

由于可用磁盘空间较低,指定节点达到高水位线。若有可能,某些分片将重新分配到其他节点。确保向节点添加更多磁盘空间,或者丢弃分配给此节点的旧索引。

警告

ElasticsearchNodeDiskWatermarkReached

由于可用磁盘空间不足,指定节点达到洪水水位线。每个在这个节点上分配了分片的索引都会强制使用只读块。当磁盘使用低于高水位线时,索引块必须手动发布。

Critical

ElasticsearchJVMHeapUseHigh

指定节点上的 JVM 堆使用率太高。

警报

ElasticsearchWriteRequestsRejectionJumps

Elasticsearch 在指定节点上的写入增加。此节点可能无法跟上索引速度。

警告

AggregatedLoggingSystemCPUHigh

该系统在指定节点上使用的 CPU 太高。

警报

ElasticsearchProcessCPUHigh

Elasticsearch 在指定节点上使用的 CPU 太高。

警报