1.3.14. 监控

1.3.14.1. 对规则更改的警报

OpenShift Container Platform 4.7 包含以下警报规则更改:

例 1.1. 对规则更改的警报

  • 添加了 AlertmanagerClusterCrashlooping 警报。如果集群中至少有一半 Alertmanager 实例处于 crashlooping 状态时,会发出关键警报通知。
  • 添加 AlertmanagerClusterDown 警报。如果集群中至少有一半 Alertmanager 实例停机,会发出关键警报通知。
  • 添加 AlertmanagerClusterFailedToSendAlerts 警报。如果集群中的所有 Alertmanager 实例都无法发送通知,会发出关键警报通知。
  • 添加 AlertmanagerFailedToSendAlerts 警报。如果 Alertmanager 实例无法发送通知,发出警告警报通知。
  • 添加了 etcdBackendQuotaLowSpace 警报。如果 etcd 集群的数据库大小超过 etcd 实例上定义的配额,会发出关键警报通知。
  • 添加了 etcdExcessiveDatabaseGrowth 警报。如果发现有大量的 etcd 写入,导致 etcd 实例在四小时的时间内数据库大小增加了 50%,会发送警告警报通知。
  • 添加了 etcdHighFsyncDurations 警报。如果一个 etcd 集群的 99% 的 fsync 持续时间都太高时,会发送关键警报通知。
  • 添加了 KubeletClientCertificateRenewalErrors 警报。如果 Kubelet 无法更新其客户端证书,发送警告警报通知。
  • 添加了 KubeletServerCertificateRenewalErrors 警报。如果 Kubelet 无法更新其服务器证书,发送警告警报通知。
  • 添加了 NTODegraded 警报。如果 Node Tuning Operator 降级,发送警告警报通知。
  • 添加了 NTOPodsNotReady 警报。如果节点上的特定 pod 没有就绪,发送警告警报通知。
  • 添加了 PrometheusOperatorNotReady 警报。如果 Prometheus Operator 实例未就绪,发送警告警报通知。
  • 添加了 PrometheusOperatorRejectedResources 警报。如果 Prometheus Operator 拒绝特定资源,发送警告警报通知。
  • 添加了 PrometheusOperatorSyncFailed 警报。如果 Prometheus Operator 控制器无法协调特定对象,发送警告警报通知。
  • 添加了 PrometheusTargetLimitHit 警报。如果因为有些提取配置超过目标限制,Prometheus 放弃了目标,发送警告警报通知。
  • 添加了 ThanosSidecarPrometheusDown 警报。如果 Thanos sidecar 无法连接到 Prometheus,发送关键警报通知。
  • 添加了 ThanosSidecarUnhealthy 警报。如果在指定时间段内 Thanos sidecar 不健康,发送关键警报通知。
  • 更新了 NodeClockNotSynchronising 警报,以防止在使用 chrony 时间服务 chronyd 的环境中出现假的正数。
  • NodeNetworkReceiveErrs 警报进行了更新,以确保当只报告少量错误时,警报不会触发。该规则现在使用错误与数据包总数的比例,而不是错误的绝对数量。
  • NodeNetworkTransmitErrs 警报进行了更新,以确保当只报告少量错误时,警报不会触发。该规则现在使用错误与数据包总数的比例,而不是错误的绝对数量。
  • 带有严重性级别 warningcriticaletcdHighNumberOfFailedHTTPRequests 警告会被删除。如果 etcd 实例上有高百分比的 HTTP 请求失败,这些警报就会触发。
注意

红帽不保证指标、记录规则或警报规则的向后兼容。