监控
监控 Red Hat OpenShift Service on AWS 上的项目
摘要
第 1 章 监控概述
1.1. 关于 Red Hat OpenShift Service on AWS 监控
在 Red Hat OpenShift Service on AWS 中,您可以监控自己的项目,使其与 Red Hat Site Reliability Engineering (SRE)平台指标隔离。您可以监控自己的项目,而无需进行额外的监控解决方案。
1.2. 了解监控堆栈
Red Hat OpenShift Service on AWS (ROSA) 监控堆栈基于 Prometheus 开源项目及其更广的生态系统。监控堆栈包括以下组件:
默认平台监控组件。在 Red Hat OpenShift Service on AWS 安装过程中,默认会在
openshift-monitoring项目中安装一组平台监控组件。Red Hat Site Reliability Engineers (SRE)使用这些组件来监控核心集群组件,包括 Kubernetes 服务。这包括关键指标,如 CPU 和内存,从每个命名空间中的所有工作负载收集。下图中的默认安装部分说明了这些组件。
-
用于监控用户定义项目的组件。在 Red Hat OpenShift Service on AWS 安装过程中,默认会在
openshift-user-workload-monitoring项目中安装一组用户定义的项目监控组件。您可以使用这些组件来监控用户定义的项目中的服务和 Pod。下图中的用户部分说明了这些组件。
1.2.1. 默认监控目标
Red Hat Site Reliability Engineers (SRE)监控 Red Hat OpenShift Service on AWS 集群中的以下平台目标:
- CoreDNS
- Elasticsearch(如果安装了 Logging)
- etcd
- Fluentd(如果安装了 Logging)
- HAProxy
- 镜像 registry
- Kubelets
- Kubernetes API 服务器
- Kubernetes 控制器管理器
- Kubernetes 调度程序
- OpenShift API 服务器
- OpenShift Controller Manager
- Operator Lifecycle Manager (OLM)
1.2.2. 用于监控用户定义的项目的组件
Red Hat OpenShift Service on AWS 包括对监控堆栈的可选增强,供您用于监控用户定义的项目中的服务和 Pod。此功能包括以下组件:
表 1.1. 用于监控用户定义的项目的组件
| 组件 | 描述 |
|---|---|
| Prometheus Operator |
|
| Prometheus | Prometheus 是为用户定义的项目提供监控的监控系统。Prometheus 将警报发送到 Alertmanager 进行处理。 |
| Thanos Ruler | Thanos Ruler 是 Prometheus 的一个规则评估引擎,作为一个独立的进程来部署。在 Red Hat OpenShift Service on AWS 中,Thanos Ruler 为监控用户定义的项目提供规则和警报评估。 |
| Alertmanager | Alertmanager 服务处理从 Prometheus 和 Thanos Ruler 接收的警报。Alertmanager 还负责将用户定义的警报发送到外部通知系统。部署该服务是可选的。 |
所有这些组件都由堆栈监控,并在更新 Red Hat OpenShift Service on AWS 时自动更新。
1.2.3. 用户定义的项目的监控目标
监控会默认为 Red Hat OpenShift Service on AWS 用户定义的项目启用。您可以监控:
- 通过用户定义的项目中的服务端点提供的指标。
- 在用户定义的项目中运行的 Pod。
1.3. Red Hat OpenShift Service on AWS 监控的常见术语表
该术语表定义了 Red Hat OpenShift Service on AWS 架构中使用的常用术语。
- Alertmanager
- Alertmanager 处理从 Prometheus 接收的警报。Alertmanager 还负责将警报发送到外部通知系统。
- 警报规则
- 警报规则包含一组概述集群中特定状态的条件。当这些条件满足时会触发警报。可为警报规则分配一个严重性来定义警报的路由方式。
- Cluster Monitoring Operator
- Cluster Monitoring Operator (CMO) 是监控堆栈的核心组件。它部署和管理 Prometheus 实例,如 Thanos Querier、Telemeter Client 和 metrics 目标,以确保它们保持最新状态。CMO 由 Cluster Version Operator (CVO) 部署。
- Cluster Version Operator
- Cluster Version Operator (CVO)管理集群 Operator 的生命周期,其中许多默认安装在 Red Hat OpenShift Service on AWS 中。
- 配置映射
-
配置映射提供将配置数据注入 pod 的方法。您可以在类型为
ConfigMap的卷中引用存储在配置映射中的数据。在 pod 中运行的应用程序可以使用这个数据。 - Container
- 容器是一个轻量级的可执行镜像,包括软件及其所有依赖项。容器将虚拟化操作系统。因此,您可以在数据中心、公共或私有云以及开发人员的笔记本电脑中运行容器。
- 自定义资源 (CR)
- CR 是 Kubernetes API 的扩展。您可以创建自定义资源。
- etcd
- etcd 是 Red Hat OpenShift Service on AWS 的键值存储,它存储所有资源对象的状态。
- Fluentd
- Fluentd 从节点收集日志并将其传送到 Elasticsearch。
- Kubelets
- 在节点上运行并读取容器清单。确保定义的容器已启动且正在运行。
- Kubernetes API 服务器
- Kubernetes API 服务器验证并配置 API 对象的数据。
- Kubernetes 控制器管理器
- Kubernetes 控制器管理器管理集群的状态。
- Kubernetes 调度程序
- Kubernetes 调度程序将 pod 分配给节点。
- labels
- 标签是可用于组织和选择对象子集(如 pod)的键值对。
- node
- Red Hat OpenShift Service on AWS 集群中的 worker 机器。节点是虚拟机 (VM) 或物理计算机。
- Operator
- 在 Red Hat OpenShift Service on AWS 集群中打包、部署和管理 Kubernetes 应用程序的首选方法。Operator 将人类操作知识编码到一个软件程序中,易于打包并与客户共享。
- Operator Lifecycle Manager (OLM)
- OLM 可帮助您安装、更新和管理 Kubernetes 原生应用程序的生命周期。OLM 是一个开源工具包,用于以有效、自动化且可扩展的方式管理 Operator。
- 持久性存储
- 即便在设备关闭后也存储数据。Kubernetes 使用持久性卷来存储应用程序数据。
- 持久性卷声明 (PVC)
- 您可以使用 PVC 将 PersistentVolume 挂载到 Pod 中。您可以在不了解云环境的详情的情况下访问存储。
- pod
- pod 是 Kubernetes 中的最小逻辑单元。pod 由一个或多个容器组成,可在 worker 节点上运行。
- Prometheus
- Prometheus 是 Red Hat OpenShift Service on AWS 监控堆栈所基于的监控系统。Prometheus 是一个时间序列数据库和用于指标的规则评估引擎。Prometheus 将警报发送到 Alertmanager 进行处理。
- Prometheus adapter
- Prometheus Adapter 会转换 Kubernetes 节点和 pod 查询以便在 Prometheus 中使用。转换的资源指标包括 CPU 和内存使用率。Prometheus Adapter 会公开用于 Pod 横向自动扩展的集群资源指标 API。
- Prometheus Operator
-
openshift-monitoring项目中的 Prometheus Operator (PO) 负责创建、配置和管理平台 Prometheus 和 Alertmanager 实例。它还会根据 Kubernetes 标签查询来自动生成监控目标配置。 - 静默
- 可对警报应用静默,以防止在警报条件满足时发送通知。在您着手处理根本问题的同时,您可在初始通知后将警报静音。
- storage
- Red Hat OpenShift Service on AWS 支持 AWS 上的许多类型的存储。您可以在 Red Hat OpenShift Service on AWS 集群中管理持久性和非持久性数据的容器存储。
- Thanos Ruler
- Thanos Ruler 是 Prometheus 的一个规则评估引擎,作为一个独立的进程来部署。在 Red Hat OpenShift Service on AWS 中,Thanos Ruler 为监控用户定义的项目提供规则和警报评估。
- Web 控制台
- 用于管理 Red Hat OpenShift Service on AWS 的用户界面(UI)。
1.4. 后续步骤
第 2 章 访问用户定义的项目的监控
当安装了一个 Red Hat OpenShift Service on AWS (ROSA) 集群时,会为用户定义的项目默认启用监控功能。启用对用户定义的项目的监控后,您可以监控自己的 ROSA 项目,而无需进行额外的监控解决方案。
dedicated-admin 用户具有对用户定义的项目配置和访问监控的默认权限。
自定义 Prometheus 实例和通过 Operator Lifecycle Manager (OLM) 安装的 Prometheus Operator 可能会导致用户定义的项目监控(如果启用)出现问题。不支持自定义 Prometheus 实例。
另外,您还可以在集群安装过程中或安装后为用户定义的项目禁用监控。
2.1. 后续步骤
第 3 章 配置监控堆栈
本节介绍支持什么配置,演示了如何为用户定义的项目配置监控堆栈,并演示了一些常见的配置场景。
3.1. 对监控的维护和支持
配置 Red Hat OpenShift Service on AWS Monitoring 的支持方法是使用本文档中介绍的选项进行配置。请勿使用其他配置,因为不受支持。各个 Prometheus 发行版本的配置范例可能会有所变化,只有掌握了所有可能的配置,才能稳妥应对这样的配置变化。如果使用并非本节所描述的配置,您的更改可能会丢失,因为 cluster-monitoring-operator 会调节差异。根据设计,Operator 默认将一切重置到定义的状态。
Red Hat Site Reliability 工程师(SRE)不支持安装另一个 Prometheus 实例。
3.1.1. 对监控的支持注意事项
明确不支持以下修改:
- 在 Red Hat OpenShift Service on AWS 上安装自定义 Prometheus 实例。自定义资源 (CR) 是由 Prometheus Operator 管理的 Prometheus 自定义资源 (CR)。
-
修改默认平台监控组件。您不应该修改
cluster-monitoring-config配置映射中定义的任何组件。Red Hat SRE 使用这些组件来监控核心集群组件和 Kubernetes 服务。
3.2. 配置监控堆栈
在 AWS 上的 Red Hat OpenShift Service 中,您可以使用 user-workload-monitoring-config ConfigMap 配置监控用户定义的项目工作负载的堆栈。配置配置映射配置 Cluster Monitoring Operator(CMO),CMO 会配置堆栈的组件。
前提条件
-
您可以使用具有
dedicated-admin角色的用户访问集群。 -
user-workload-monitoring-configConfigMap对象存在。在集群创建时默认创建此对象。 -
已安装 OpenShift CLI(
oc)。
流程
编辑
ConfigMap对象。在
openshift-user-workload-monitoring项目中编辑user-workload-monitoring-configConfigMap对象:$ oc -n openshift-user-workload-monitoring edit configmap user-workload-monitoring-config
将您的配置以键值对
<component_name>: <component_configuration>的形式添加到data/config.yaml下:apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | <component>: <configuration_for_the_component>相应地替换
<component>和<configuration_for_the_component>。以下示例
ConfigMap对象为 Prometheus 配置数据保留周期和最低容器资源请求。这与仅监控用户定义的项目的 Prometheus 实例相关:apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | prometheus: 1 retention: 24h 2 resources: requests: cpu: 200m 3 memory: 2Gi 4
保存文件以将更改应用到
ConfigMap对象。受新配置影响的 Pod 会自动重启。警告一旦将更改保存到监控配置映射,可能会重新部署相关项目中的 Pod 和其他资源。该项目中正在运行的监控进程也可能被重启。
其他资源
-
user-workload-monitoring-config配置映射的配置参考
3.3. 可配置的监控组件
下表显示了您可以配置的监控组件,以及 user-workload-monitoring-config ConfigMap 中用来指定这些组件的键。
不要修改 cluster-monitoring-config ConfigMap 对象中的监控组件。Red Hat Site Reliability Engineers (SRE)使用这些组件来监控核心集群组件和 Kubernetes 服务。
表 3.1. 可配置的监控组件
| 组件 | user-workload-monitoring-config 配置映射键 |
|---|---|
| Alertmanager |
|
| Prometheus Operator |
|
| Prometheus |
|
| Thanos Ruler |
|
3.4. 使用节点选择器移动监控组件
通过将 nodeSelector 约束与标记的节点搭配使用,您可以将任何监控堆栈组件移到特定的节点上。通过这样做,您可以控制集群中监控组件的放置和分发。
通过控制监控组件的放置和分发,您可以根据特定要求或策略优化系统资源使用、提高性能和隔离工作负载。
3.4.1. 节点选择器与其他约束一起使用
如果使用节点选择器约束移动监控组件,请注意集群可能存在其他限制来控制 pod 调度:
- 拓扑分布约束可能处于放置状态来控制 pod 放置。
- Prometheus、Thanos Querier、Alertmanager 和其他监控组件会放置硬反关联性规则,以确保这些组件的多个 pod 始终分散到不同的节点上,因此始终具有高可用性。
将 pod 调度到节点时,pod 调度程序会在决定 pod 放置时尝试满足所有现有的限制。也就是说,当 pod 调度程序决定将哪些 pod 放置到哪些节点上时,所有约束都会编译。
因此,如果您配置节点选择器约束,但无法满足现有的约束,pod 调度程序无法与所有约束匹配,也不会调度 pod 放置到节点上。
为保持监控组件的弹性和高可用性,请确保有足够的节点可用,并在配置节点选择器约束以移动组件时匹配所有约束。
3.4.2. 将监控组件移到其他节点
您可以将监控用户定义的项目的工作负载的任何组件移到特定的 worker 节点。不允许组件移到控制平面或基础架构节点。
前提条件
-
您可以使用具有
dedicated-admin角色的用户访问集群。 -
user-workload-monitoring-configConfigMap对象存在。在集群创建时默认创建此对象。 -
已安装 OpenShift CLI(
oc)。
流程
如果您还没有这样做,请在要运行监控组件的节点中添加标签:
$ oc label nodes <node-name> <node-label>
编辑
ConfigMap对象:在
openshift-user-workload-monitoring项目中编辑user-workload-monitoring-configConfigMap对象:$ oc -n openshift-user-workload-monitoring edit configmap user-workload-monitoring-config
在
data/config.yaml下为组件指定nodeSelector约束的节点标签:apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | <component>: 1 nodeSelector: <node-label-1> 2 <node-label-2> 3 <...>注意如果在配置
nodeSelector约束后监控组件仍然处于Pending状态,请检查 Pod 事件中与污点和容限相关的错误。
保存文件以使改变生效。新配置中指定的组件会自动移到新节点上。
警告当您将更改保存到监控配置映射时,可能会重新部署相关项目中的 Pod 和其他资源。该项目中正在运行的监控进程可能会重启。
其他资源
-
参阅 Kubernetes 文档来详细了解
nodeSelector约束
3.5. 为监控组件分配容忍(tolerations)
您可以为监控用户定义的项目的组件分配容限,以便将其移到污点的 worker 节点。在控制平面或基础架构节点上不允许调度。
前提条件
-
您可以使用具有
dedicated-admin角色的用户访问集群。 -
user-workload-monitoring-configConfigMap对象存在于openshift-user-workload-monitoring命名空间中。在集群创建时默认创建此对象。 -
已安装 OpenShift CLI(
oc)。
流程
编辑
ConfigMap对象:在
openshift-user-workload-monitoring项目中编辑user-workload-monitoring-configConfigMap对象:$ oc -n openshift-user-workload-monitoring edit configmap user-workload-monitoring-config
为组件指定
tolerations:apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | <component>: tolerations: <toleration_specification>相应地替换
<component>和<toleration_specification>。例如,
oc adm taint nodes node1 key1=value1:NoSchedule会将一个键为key1且值为value1的污点添加到node1。这会防止监控组件在node1上部署 Pod,除非为该污点配置了容限。以下示例将thanosRuler组件配置为容许示例污点:apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | thanosRuler: tolerations: - key: "key1" operator: "Equal" value: "value1" effect: "NoSchedule"
保存文件以使改变生效。这样就会自动应用新组件放置配置。
警告一旦将更改保存到监控配置映射,可能会重新部署相关项目中的 Pod 和其他资源。该项目中正在运行的监控进程也可能被重启。
其他资源
- 参阅 Kubernetes 文档中有关污点和容限的内容
3.6. 配置专用服务监控器
您可以配置 Red Hat OpenShift Service on AWS 核心平台监控,以使用专用服务监控器来收集资源指标管道的指标。
启用后,专用服务监控器会从 kubelet 端点公开两个额外的指标,并将 honorTimestamps 字段的值设置为 true。
通过启用专用服务监控器,您可以提高由 oc adm top pod 命令或 Horizontal Pod Autoscaler 使用的基于 Prometheus Adapter 的 CPU 用量测量的一致性。
3.6.1. 启用专用服务监控器
您可以通过在 openshift-monitoring 命名空间中的 cluster-monitoring-config ConfigMap 对象中配置 dedicatedServiceMonitors 键,将核心平台监控配置为使用专用服务监控器。
前提条件
-
已安装 OpenShift CLI(
oc)。 -
您可以使用具有
cluster-admin集群角色的用户身份访问集群。 -
您已创建
cluster-monitoring-configConfigMap对象。
流程
编辑
openshift-monitoring命名空间中的cluster-monitoring-configConfigMap对象:$ oc -n openshift-monitoring edit configmap cluster-monitoring-config
如以下示例所示,添加一个
enabled: true键-值对:apiVersion: v1 kind: ConfigMap metadata: name: cluster-monitoring-config namespace: openshift-monitoring data: config.yaml: | k8sPrometheusAdapter: dedicatedServiceMonitors: enabled: true 1- 1
- 将
enabled字段的值设置为true以部署一个专用服务监控器,该监控器公开 kubelet/metrics/resource端点。
保存文件以自动应用更改。
警告当您保存对
cluster-monitoring-config配置映射的更改时,可能会重新部署openshift-monitoring项目中的 Pod 和其他资源。该项目中正在运行的监控进程可能会重启。
3.7. 配置持久性存储
如果使用持久性存储运行集群监控,您的指标将保存在持久性卷(PV)中,并可在 Pod 重新启动或重新创建后保留。如果您需要预防指标或警报数据丢失,这是理想方案。在生产环境中,强烈建议配置持久性存储。由于 IO 需求很高,使用本地存储颇有优势。
3.7.1. 持久性存储的先决条件
- 使用块存储类型。
3.7.2. 配置持久性卷声明
要让监控组件使用持久性卷 (PV),您必须配置持久性卷声明 (PVC)。
前提条件
-
您可以使用具有
dedicated-admin角色的用户访问集群。 -
user-workload-monitoring-configConfigMap对象存在。在集群创建时默认创建此对象。 -
已安装 OpenShift CLI(
oc)。
流程
编辑
ConfigMap对象:在
openshift-user-workload-monitoring项目中编辑user-workload-monitoring-configConfigMap对象:$ oc -n openshift-user-workload-monitoring edit configmap user-workload-monitoring-config
将组件的 PVC 配置添加到
data/config.yaml下:apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | <component>: volumeClaimTemplate: spec: storageClassName: <storage_class> resources: requests: storage: <amount_of_storage>如需有关如何指定
volumeClaimTemplate的信息,请参阅 Kubernetes 文档中与 PersistentVolumeClaim 相关的内容。以下示例配置了一个 PVC 来声明监控用户定义的项目的 Prometheus 实例的持久性存储:
apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | prometheus: volumeClaimTemplate: spec: storageClassName: gp3 resources: requests: storage: 40Gi上例使用
gp3存储类。以下示例配置了一个 PVC 来声明用于 Thanos Ruler 的持久性存储:
apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | thanosRuler: volumeClaimTemplate: spec: storageClassName: gp3 resources: requests: storage: 10Gi注意thanosRuler组件的存储要求取决于要评估的规则数量以及每个规则生成的样本数量。
保存文件以使改变生效。受新配置影响的 Pod 会自动重启,并且应用新的存储配置。
警告一旦将更改保存到监控配置映射,可能会重新部署相关项目中的 Pod 和其他资源。该项目中正在运行的监控进程也可能被重启。
3.7.3. 修改 Prometheus 指标数据的保留时间和大小
默认情况下,Prometheus 会自动保留 15 天的指标数据。您可以修改监控用户定义的项目的 Prometheus 实例的保留时间,以更改在多久后删除数据。您还可以设置保留指标数据使用的最大磁盘空间量。如果数据达到这个大小限制,Prometheus 会首先删除最旧的数据,直到使用的磁盘空间重新低于限制。
请注意这些数据保留设置的行为:
-
基于大小的保留策略适用于
/prometheus目录中的所有数据块目录,包括持久性块、写入级日志(WAL)数据和 mmapped 块。 -
/wal和/head_chunks目录中的数据计入保留大小限制,但 Prometheus 永远不会根据基于大小或基于时间的保留策略从这些目录中清除数据。因此,如果您设置了保留大小限制,它小于为/wal和/head_chunks目录设置的最大容量,则表示您将系统配置为不保留/prometheus数据目录中的任何数据块。 - 只有在 Prometheus 切断新的数据块时,才会应用基于大小的保留策略,即在 WAL 最多包含三小时数据后每两小时进行。
-
如果没有为
retention或retentionSize显式定义值,则保留时间默认为 15 天,并且不会设置保留大小。 -
如果
retention和retentionSize都定义了值,则会应用这两个值。如果任何数据块超过定义的保留时间或定义的大小限制,Prometheus 会清除这些数据块。 -
如果您为
retentionSize定义了值,且没有定义retention,则只应用retentionSize值。 -
如果您没有为
retentionSize定义值,且只为retention定义了值,则只应用retention值。
先决条件
-
您可以使用具有
dedicated-admin角色的用户访问集群。 -
user-workload-monitoring-configConfigMap对象存在。在集群创建时默认创建此对象。 -
已安装 OpenShift CLI(
oc)。
流程
编辑
ConfigMap对象:在
openshift-user-workload-monitoring项目中编辑user-workload-monitoring-configConfigMap对象:$ oc -n openshift-user-workload-monitoring edit configmap user-workload-monitoring-config
在
data/config.yaml下添加保留时间和大小配置:apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | prometheus: retention: <time_specification> 1 retentionSize: <size_specification> 2以下示例为监控用户定义的项目的 Prometheus 实例将保留时间设置为 24 小时,保留大小设为 10GB:
apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | prometheus: retention: 24h retentionSize: 10GB
保存文件以使改变生效。受新配置重启影响的 Pod 会自动重启。
警告一旦将更改保存到监控配置映射,可能会重新部署相关项目中的 Pod 和其他资源。该项目中正在运行的监控进程也可能被重启。
3.7.4. 修改 Thanos Ruler 指标数据的保留时间
默认情况下,对于用户定义的项目,Thanos Ruler 会在 24 小时内自动保留指标数据。您可以通过在 openshift-user-workload-monitoring 命名空间中指定 user-workload-monitoring-config 配置映射中的 time 值来修改这些数据的保留时间。
先决条件
-
您可以使用具有
dedicated-admin角色的用户访问集群。 -
user-workload-monitoring-configConfigMap对象存在。在集群创建时默认创建此对象。 -
已安装 OpenShift CLI(
oc)。
流程
在
openshift-user-workload-monitoring项目中编辑user-workload-monitoring-configConfigMap对象:$ oc -n openshift-user-workload-monitoring edit configmap user-workload-monitoring-config
将保留时间配置添加到
data/config.yaml下:apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | thanosRuler: retention: <time_specification> 1- 1
- 以以下格式指定保留时间:数字直接后跟
ms(毫秒)、s(秒)、m(分钟)、h(小时)、d(天)、w(周)或y(年)。您还可以组合指定时间值,如1h30m15s。默认值为24h。
以下示例将 Thanos Ruler 数据的保留时间设置为 10 天:
apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | thanosRuler: retention: 10d保存文件以使改变生效。受新配置影响的 Pod 会自动重启。
警告保存对监控配置映射的更改可能会重启监控进程,并在相关项目中重新部署 pod 和其他资源。该项目中正在运行的监控进程可能会重启。
其他资源
3.8. 配置远程写入存储
您可以配置远程写入存储,使 Prometheus 能够将最接近的指标发送到远程系统,以进行长期存储。这样做不会影响 Prometheus 存储指标的方式和时长。
先决条件
-
您可以使用具有
dedicated-admin角色的用户访问集群。 -
user-workload-monitoring-configConfigMap对象存在。在集群创建时默认创建此对象。 -
已安装 OpenShift CLI(
oc)。 - 您已设置了一个远程写入兼容端点(如 Thanos),并且知道端点 URL。有关与远程写入功能兼容的端点的信息,请参阅 Prometheus 远程端点和存储文档。
您已为远程写入端点在
Secret对象中设置身份验证凭证。您必须在openshift-user-workload-monitoring命名空间中创建 secret。小心要减少安全风险,请使用 HTTPS 和身份验证向端点发送指标。
流程
编辑
ConfigMap对象:在
openshift-user-workload-monitoring项目中编辑user-workload-monitoring-configConfigMap对象:$ oc -n openshift-user-workload-monitoring edit configmap user-workload-monitoring-config
-
在
data/config.yaml/prometheus下添加一个remoteWrite:部分。 在本节中添加端点 URL 和身份验证凭证:
apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | prometheus: remoteWrite: - url: "https://remote-write-endpoint.example.com" 1 <endpoint_authentication_credentials> 2在身份验证凭证后添加 write relabel 配置值:
apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | prometheus: remoteWrite: - url: "https://remote-write-endpoint.example.com" <endpoint_authentication_credentials> <write_relabel_configs> 1- 1
- 写入重新标记配置设置。
对于
<write_relabel_configs>,请替换您要发送到远程端点的指标写入重新标记配置列表。以下示例演示了如何转发名为
my_metric的单个指标:apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | prometheus: remoteWrite: - url: "https://remote-write-endpoint.example.com" writeRelabelConfigs: - sourceLabels: [__name__] regex: 'my_metric' action: keep有关写入重新标记配置选项的详情,请查看 Prometheus relabel_config 文档。
保存文件以使改变生效。受新配置重启影响的 Pod 会自动重启。
警告保存对监控
ConfigMap对象的更改可能会重新部署相关项目中的 pod 和其他资源。保存更改还可能在该项目中重新启动正在运行的监控进程。
3.8.1. 支持的远程写入身份验证设置
您可以使用不同的方法通过远程写入端点进行身份验证。目前支持的身份验证方法有 AWS 签名版本 4、基本身份验证、授权、OAuth 2.0 和 TLS 客户端。下表提供有关用于远程写入的受支持身份验证方法的详情。
| 身份验证方法 | 配置映射字段 | 描述 |
|---|---|---|
| AWS 签名版本 4 |
| 此方法使用 AWS 签名版本 4 身份验证为请求签名。您不能搭配授权、OAuth 2.0 或基本身份验证同时使用此方法。 |
| 基本身份验证(Basic authentication) |
| 基本身份验证使用配置的用户名和密码在每个远程写入请求上设置授权标头。 |
| 授权 |
|
授权使用配置的令牌在每个远程写入请求上设置 |
| OAuth 2.0 |
|
OAuth 2.0 配置使用客户端凭据授予类型。Prometheus 使用指定的客户端 ID 和客户端 secret 从 |
| TLS 客户端 |
| TLS 客户端配置指定 CA 证书、客户端证书和客户端密钥文件信息,用于使用 TLS 与远程写入端点服务器进行身份验证。示例配置假定您已创建了 CA 证书文件、客户端证书文件和客户端密钥文件。 |
3.8.2. 远程写入身份验证设置示例
以下示例展示了可用于连接到远程写入端点的不同身份验证设置。每个示例还演示了如何配置包含身份验证凭据和其他相关设置的对应 Secret 对象。每个示例配置身份验证,以用于 openshift-user-workload-monitoring 命名空间中的监控用户定义的项目。
例 3.1. AWS 签名版本 4 验证的 YAML 示例
以下显示了 openshift-user-workload-monitoring 命名空间中名为 sigv4-credentials 的 sigv4 secret 的设置。
apiVersion: v1 kind: Secret metadata: name: sigv4-credentials namespace: openshift-user-workload-monitoring stringData: accessKey: <AWS_access_key> 1 secretKey: <AWS_secret_key> 2 type: Opaque
下面显示了一个 AWS Signature Version 4 远程写入身份验证设置示例,它使用 openshift-user-workload-monitoring 命名空间中名为 sigv4-credentials 的 Secret 对象:
apiVersion: v1
kind: ConfigMap
metadata:
name: user-workload-monitoring-config
namespace: openshift-user-workload-monitoring
data:
config.yaml: |
prometheus:
remoteWrite:
- url: "https://authorization.example.com/api/write"
sigv4:
region: <AWS_region> 1
accessKey:
name: sigv4-credentials 2
key: accessKey 3
secretKey:
name: sigv4-credentials 4
key: secretKey 5
profile: <AWS_profile_name> 6
roleArn: <AWS_role_arn> 7例 3.2. 用于基本身份验证的 YAML 示例
以下显示了 openshift-user-workload-monitoring 命名空间中名为 rw-basic-auth 的 Secret 对象基本身份验证设置示例:
apiVersion: v1 kind: Secret metadata: name: rw-basic-auth namespace: openshift-user-workload-monitoring stringData: user: <basic_username> 1 password: <basic_password> 2 type: Opaque
以下示例显示了使用 openshift-user-workload-monitoring 命名空间中名为 rw-basic-auth 的 Secret 对象的 basicAuth 远程写入配置。它假设您已为端点设置了身份验证凭据。
apiVersion: v1
kind: ConfigMap
metadata:
name: user-workload-monitoring-config
namespace: openshift-user-workload-monitoring
data:
config.yaml: |
prometheus:
remoteWrite:
- url: "https://basicauth.example.com/api/write"
basicAuth:
username:
name: rw-basic-auth 1
key: user 2
password:
name: rw-basic-auth 3
key: password 4例 3.3. 使用 Secret 对象通过 bearer 令牌进行身份验证的 YAML 示例
以下显示了 openshift-user-workload-monitoring 命名空间中名为 rw-bearer-auth 的 Secret 对象的 bearer 令牌设置:
apiVersion: v1
kind: Secret
metadata:
name: rw-bearer-auth
namespace: openshift-user-workload-monitoring
stringData:
token: <authentication_token> 1
type: Opaque- 1
- 身份验证令牌。
以下显示了在 openshift-user-workload-monitoring 命名空间中使用名为 rw-bearer-auth 的 Secret 对象的 bearer 令牌配置映射设置示例:
apiVersion: v1
kind: ConfigMap
metadata:
name: user-workload-monitoring-config
namespace: openshift-user-workload-monitoring
data:
config.yaml: |
enableUserWorkload: true
prometheus:
remoteWrite:
- url: "https://authorization.example.com/api/write"
authorization:
type: Bearer 1
credentials:
name: rw-bearer-auth 2
key: token 3例 3.4. 用于 OAuth 2.0 验证的 YAML 示例
以下显示了 openshift-user-workload-monitoring 命名空间中名为 oauth2-credentials 的 Secret 对象的 OAuth 2.0 设置示例:
apiVersion: v1 kind: Secret metadata: name: oauth2-credentials namespace: openshift-user-workload-monitoring stringData: id: <oauth2_id> 1 secret: <oauth2_secret> 2 token: <oauth2_authentication_token> 3 type: Opaque
下面显示了一个 oauth2 远程写入身份验证示例配置,它使用 openshift-user-workload-monitoring 命名空间中名为 oauth2-credentials 的 Secret 对象:
apiVersion: v1
kind: ConfigMap
metadata:
name: user-workload-monitoring-config
namespace: openshift-user-workload-monitoring
data:
config.yaml: |
prometheus:
remoteWrite:
- url: "https://test.example.com/api/write"
oauth2:
clientId:
secret:
name: oauth2-credentials 1
key: id 2
clientSecret:
name: oauth2-credentials 3
key: secret 4
tokenUrl: https://example.com/oauth2/token 5
scopes: 6
- <scope_1>
- <scope_2>
endpointParams: 7
param1: <parameter_1>
param2: <parameter_2>例 3.5. TLS 客户端身份验证的 YAML 示例
以下显示了 openshift-user-workload-monitoring 命名空间中名为 mtls-bundle 的 tls Secret 对象的 TLS 客户端设置示例。
apiVersion: v1 kind: Secret metadata: name: mtls-bundle namespace: openshift-user-workload-monitoring data: ca.crt: <ca_cert> 1 client.crt: <client_cert> 2 client.key: <client_key> 3 type: tls
以下示例显示了使用名为 mtls-bundle 的 TLS Secret 对象的 tlsConfig 远程写入身份验证配置。
apiVersion: v1
kind: ConfigMap
metadata:
name: user-workload-monitoring-config
namespace: openshift-user-workload-monitoring
data:
config.yaml: |
prometheus:
remoteWrite:
- url: "https://remote-write-endpoint.example.com"
tlsConfig:
ca:
secret:
name: mtls-bundle 1
key: ca.crt 2
cert:
secret:
name: mtls-bundle 3
key: client.crt 4
keySecret:
name: mtls-bundle 5
key: client.key 6其他资源
- 如需创建远程写入兼容端点(如 Thanos)的步骤,请参阅设置远程写入兼容端点。
- 如需有关如何针对不同用例优化远程写入设置的信息,请参阅调整远程写入设置。
3.9. 在指标中添加集群 ID 标签
如果您管理 AWS 集群上的多个 Red Hat OpenShift Service,并使用远程写入功能将指标数据从这些集群发送到外部存储位置,您可以添加集群 ID 标签来识别来自不同集群的指标数据。然后,您可以查询这些标签来标识指标的源集群,并区分与其他集群发送的类似指标数据的数据。
这样,如果您为多个客户管理多个集群,并将指标数据发送到单个集中存储系统,您可以使用集群 ID 标签查询特定集群或客户的指标。
创建并使用集群 ID 标签涉及三个常规步骤:
- 配置远程写入存储的写重新标记设置。
- 将集群 ID 标签添加到指标。
- 查询这些标签以标识源集群或指标客户。
3.9.1. 为指标创建集群 ID 标签
您可以通过编辑 openshift-user-workload-monitoring 命名空间中的 user-workload-monitoring-config 配置映射中的设置来为指标创建集群 ID 标签。
先决条件
-
您可以使用具有
dedicated-admin角色的用户访问集群。 -
user-workload-monitoring-configConfigMap 对象存在。在集群创建时默认创建此对象。 -
已安装 OpenShift CLI(
oc)。 - 您已配置了远程写入存储。
流程
编辑
ConfigMap对象:在
openshift-user-workload-monitoring项目中编辑user-workload-monitoring-configConfigMap对象:$ oc -n openshift-user-workload-monitoring edit configmap user-workload-monitoring-config
在
data/config.yaml/prometheus/remoteWrite下的writeRelabelConfigs:部分中,添加集群 ID 重新标记配置值:apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | prometheus: remoteWrite: - url: "https://remote-write-endpoint.example.com" <endpoint_authentication_credentials> writeRelabelConfigs: 1 - <relabel_config> 2以下示例演示了如何在 user-workload 监控中使用集群 ID 标签
cluster_id转发指标:apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | prometheus: remoteWrite: - url: "https://remote-write-endpoint.example.com" writeRelabelConfigs: - sourceLabels: - __tmp_openshift_cluster_id__ 1 targetLabel: cluster_id 2 action: replace 3
保存文件以将更改应用到
ConfigMap对象。受更新的配置影响的 pod 会自动重启。警告保存对监控
ConfigMap对象的更改可能会重新部署相关项目中的 pod 和其他资源。保存更改还可能在该项目中重新启动正在运行的监控进程。
其他资源
- 有关写入重新标记配置的详情,请参阅 配置远程写入存储。
3.10. 控制用户定义的项目中未绑定指标属性的影响
开发人员可以使用键值对的形式为指标定义属性。潜在的键值对数量与属性的可能值数量对应。具有无限数量可能值的属性被称为未绑定属性。例如,customer_id 属性不绑定,因为它有无限多个可能的值。
每个分配的键值对都有唯一的时间序列。在标签中使用许多未绑定属性可导致所创建的时间序列数量出现指数增加。这可能会影响 Prometheus 性能,并消耗大量磁盘空间。
dedicated-admin 可以使用以下方法控制用户定义的项目中未绑定指标属性的影响:
- 限制用户定义的项目中每个目标提取可接受的示例数量
- 限制提取的标签数量、标签名称长度以及标签值长度
- 创建在达到提取示例阈值或无法提取目标时触发的警报
限制提取示例可帮助防止在标签中添加多个未绑定属性导致的问题。开发人员还可以通过限制其为指标定义的未绑定属性数量来防止底层原因。使用绑定到一组有限可能值的属性可减少潜在的键-值对组合数量。
3.10.1. 为用户定义的项目设置提取示例和标签限制
您可以限制用户定义的项目中每个目标提取可接受的示例数量。您还可以限制提取标签数量、标签名称长度以及标签值长度。
如果您设置了 sample 或 label limits,则在达到限制后,不会为该目标提取获得进一步的示例数据。
先决条件
-
您可以使用具有
dedicated-admin角色的用户访问集群。 -
user-workload-monitoring-configConfigMap对象存在。在集群创建时默认创建此对象。 -
已安装 OpenShift CLI(
oc)。
流程
在
openshift-user-workload-monitoring项目中编辑user-workload-monitoring-configConfigMap对象:$ oc -n openshift-user-workload-monitoring edit configmap user-workload-monitoring-config
在
data/config.yaml中添加enforcedSampleLimit配置,以限制用户定义的项目中每个目标提取可接受的示例数量:apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | prometheus: enforcedSampleLimit: 50000 1- 1
- 如果指定此参数,则需要一个值。这个
enforceSampleLimit示例将用户定义的项目中每个目标提取的示例数量限制为 50,000。
将
enforcedLabelLimit,enforcedLabelNameLengthLimit, 和enforcedLabelValueLengthLimit配置添加到data/config.yaml,以限制刮除的标签数量、标签名称长度以及用户定义的项目中的标签值长度:apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | prometheus: enforcedLabelLimit: 500 1 enforcedLabelNameLengthLimit: 50 2 enforcedLabelValueLengthLimit: 600 3保存文件以使改变生效。限制会自动应用。
警告将更改保存到
user-workload-monitoring-configConfigMap对象时,可能会重新部署openshift-user-workload-monitoring项目中的 Pod 和其他资源。该项目中正在运行的监控进程也可能被重启。
第 4 章 配置外部 Alertmanager 实例
Red Hat OpenShift Service on AWS 监控堆栈包含一个本地 Alertmanager 实例,用于从 Prometheus 路由警报。您可以添加外部 Alertmanager 实例来路由用户定义的项目的警报。
如果您为多个集群添加相同的外部 Alertmanager 配置,并且为每个集群禁用本地实例,则可以使用单个外部 Alertmanager 实例管理多个集群的警报路由。
先决条件
-
您可以使用具有
dedicated-admin角色的用户访问集群。 -
user-workload-monitoring-configConfigMap对象存在。在集群创建时默认创建此对象。 -
已安装 OpenShift CLI(
oc)。
流程
编辑
ConfigMap对象。编辑
openshift-user-workload-monitoring项目中的user-workload-monitoring-config配置映射:$ oc -n openshift-user-workload-monitoring edit configmap user-workload-monitoring-config
-
在
data/config.yaml/下添加一个<component>/additionalAlertmanagerConfigs:部分。 在本节中添加其他 Alertmanager 的配置详情:
apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | <component>: additionalAlertmanagerConfigs: - <alertmanager_specification>对于
<component>,替换两个支持的外部 Alertmanager 组件之一:prometheus或thanosRuler。对于
<alertmanager_specification>,请替换额外的 Alertmanager 实例的身份验证和其他配置详情。目前支持的身份验证方法有 bearer 令牌 (bearerToken) 和客户端 TLS (tlsConfig)。以下示例配置映射使用带有 bearer 令牌和客户端 TLS 身份验证的 Thanos Ruler 配置额外的 Alertmanager:apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | thanosRuler: additionalAlertmanagerConfigs: - scheme: https pathPrefix: / timeout: "30s" apiVersion: v1 bearerToken: name: alertmanager-bearer-token key: token tlsConfig: key: name: alertmanager-tls key: tls.key cert: name: alertmanager-tls key: tls.crt ca: name: alertmanager-tls key: tls.ca staticConfigs: - external-alertmanager1-remote.com - external-alertmanager1-remote2.com
-
保存文件以将更改应用到
ConfigMap对象。这样就会自动应用新组件放置配置。 -
保存文件以将更改应用到
ConfigMap对象。这样就会自动应用新组件放置配置。
第 5 章 为 Alertmanager 配置 secret
Red Hat OpenShift Service on AWS 监控堆栈包括 Alertmanager,它将警报从 Prometheus 路由到端点接收器。如果您需要通过接收器进行身份验证以便 Alertmanager 能够向它发送警报,您可以将 Alertmanager 配置为使用包含接收器身份验证凭据的 secret。
例如,您可以将 Alertmanager 配置为使用 secret 与需要由私有证书颁发机构 (CA) 发布的证书的端点接收器进行身份验证。您还可以将 Alertmanager 配置为使用 secret 与需要用于基本 HTTP 身份验证密码文件的接收器进行身份验证。在这两种情况下,身份验证详情都包含在 Secret 对象中,而不是包括在 ConfigMap 对象中。
5.1. 在 Alertmanager 配置中添加 secret
您可以通过编辑 openshift-user-workload-monitoring 项目中的 user-workload-monitoring-config 配置映射,将 secret 添加到用户定义的项目的 Alertmanager 配置中。
将 secret 添加到配置映射后,secret 作为一个卷挂载到 Alertmanager Pod 的 alertmanager 容器中的 /etc/alertmanager/secrets/<secret_name 的卷中。
先决条件
-
您可以使用具有
dedicated-admin角色的用户访问集群。 -
user-workload-monitoring-configConfigMap对象存在。在集群创建时默认创建此对象。 -
您已创建了要在
openshift-user-workload-monitoring项目中的 Alertmanager 中配置的 secret。 -
已安装 OpenShift CLI(
oc)。
流程
编辑
ConfigMap对象。编辑
openshift-user-workload-monitoring项目中的user-workload-monitoring-config配置映射:$ oc -n openshift-user-workload-monitoring edit configmap user-workload-monitoring-config
使用以下配置,在
data/config.yaml/alertmanager/secrets下添加一个secrets:部分:apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | alertmanager: secrets: 1 - <secret_name_1> 2 - <secret_name_2>以下示例配置映射设置将 Alertmanager 配置为使用名为
test-secret和test-secret-api-token的两个Secret对象:apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | alertmanager: enabled: true secrets: - test-secret - test-api-receiver-token
-
保存文件以将更改应用到
ConfigMap对象。新的配置会被自动应用。
5.2. 在时间序列和警报中附加额外标签
使用 Prometheus 的外部标签功能,可以将自定义标签附加到离开 Prometheus 的所有时间序列和警报。
先决条件
-
您可以使用具有
dedicated-admin角色的用户访问集群。 -
user-workload-monitoring-configConfigMap对象存在。在集群创建时默认创建此对象。 -
已安装 OpenShift CLI(
oc)。
流程
编辑
ConfigMap对象:在
openshift-user-workload-monitoring项目中编辑user-workload-monitoring-configConfigMap对象:$ oc -n openshift-user-workload-monitoring edit configmap user-workload-monitoring-config
在
data/config.yaml下定义每个指标要添加的标签映射:apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | prometheus: externalLabels: <key>: <value> 1- 1
- 使用键值对替换
<key>: <value>,其中<key>是新标签的唯一名称,<value>是它的值。
警告不要使用
prometheus或prometheus_replica作为键的名称,因为它们是保留的并会被覆盖。注意在
openshift-user-workload-monitoring项目中,Prometheus 负责处理指标,而 Thanos Ruler 负责处理警报和记录规则。在user-workload-monitoring-configConfigMap中为prometheus设置externalLabels只会为指标配置外部标签,而不会为任何规则配置外部标签。例如,要将关于区域和环境的元数据添加到与用户定义的项目相关所有时间序列和警报中,请使用:
apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | prometheus: externalLabels: region: eu environment: prod
保存文件以使改变生效。新的配置会被自动应用。
警告一旦将更改保存到监控配置映射,可能会重新部署相关项目中的 Pod 和其他资源。该项目中正在运行的监控进程也可能被重启。
第 6 章 为监控配置 pod 拓扑分布限制
当 Red Hat OpenShift Service on AWS pod 部署到多个可用区时,您可以使用 pod 拓扑分布约束来控制 Thanos Ruler pod 如何分散到网络拓扑中。
Pod 拓扑分布约束适合在分层拓扑内控制 pod 调度,节点分散到不同的基础架构级别,如这些区域内的地区和区域。另外,通过能够在不同区中调度 pod,您可以在某些情况下提高网络延迟。
6.1. 为 Thanos Ruler 设置 pod 拓扑分布限制
对于用户定义的监控,您可以为 Thanos Ruler 设置 pod 拓扑分布限制,以微调如何在区调度到节点的 pod 副本。这有助于确保 Thanos Ruler pod 具有高可用性并更有效地运行,因为工作负载分散在不同的数据中心或分级基础架构区中。
您可以在 user-workload-monitoring-config 配置映射中为 Thanos Ruler 配置 pod 拓扑分布限制。
先决条件
-
您可以使用具有
dedicated-admin角色的用户访问集群。 -
user-workload-monitoring-configConfigMap对象存在。在集群创建时默认创建此对象。 -
已安装 OpenShift CLI(
oc)。
流程
编辑
openshift-user-workload-monitoring命名空间中的user-workload-monitoring-config配置映射:$ oc -n openshift-user-workload-monitoring edit configmap user-workload-monitoring-config
在
data/config.yaml/thanosRuler下添加以下设置的值来配置 pod 拓扑分布限制:apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | thanosRuler: topologySpreadConstraints: - maxSkew: 1 1 topologyKey: monitoring 2 whenUnsatisfiable: ScheduleAnyway 3 labelSelector: matchLabels: 4 app.kubernetes.io/name: thanos-ruler- 1
- 为
maxSkew指定数字值,它定义了允许不均匀分布 pod 的程度。此字段是必需的,值必须大于零。指定的值会根据您为whenUnsatisfiable指定的值的不同而有所不同。 - 2
- 为
topologyKey指定节点标签键。此字段是必需的。带有具有此键和相同值标签的节点被视为在同一拓扑中。调度程序会尝试将大量 pod 放置到每个域中。 - 3
- 为
whenUnsatisfiable指定一个值。此字段是必需的。可用选项包括DoNotSchedule和ScheduleAnyway。如果您希望maxSkew值定义目标拓扑和全局最小值中匹配 pod 数量之间允许的最大值,则指定DoNotSchedule。如果您希望调度程序仍然调度 pod,但为可能降低 skew 的节点赋予更高的优先级,请指定ScheduleAnyway。 - 4
- 为
matchLabels指定一个值。这个值用于标识要应用约束的匹配 pod 的集合。
保存文件以自动应用更改。
警告当您将更改保存到
user-workload-monitoring-config配置映射时,可能会重新部署openshift-user-workload-monitoring项目中的 Pod 和其他资源。该项目中正在运行的监控进程可能会重启。
6.2. 为监控组件设置日志级别
您可以为 Alertmanager、Prometheus Operator、Prometheus 和 Thanos Ruler 配置日志级别。
以下日志级别可应用到 user-workload-monitoring-config ConfigMap 中的相关组件:
-
debug。记录调试、信息、警告和错误消息。 -
info。记录信息、警告和错误消息。 -
warn。仅记录警告和错误消息。 -
error。仅记录错误消息。
默认日志级别为 info。
前提条件
-
您可以使用具有
dedicated-admin角色的用户访问集群。 -
user-workload-monitoring-configConfigMap对象存在。在集群创建时默认创建此对象。 -
已安装 OpenShift CLI(
oc)。
流程
编辑
ConfigMap对象:在
openshift-user-workload-monitoring项目中编辑user-workload-monitoring-configConfigMap对象:$ oc -n openshift-user-workload-monitoring edit configmap user-workload-monitoring-config
在
data/config.yaml下为组件添加logLevel: <log_level>:apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | <component>: 1 logLevel: <log_level> 2
保存文件以使改变生效。应用日志级别更改时,组件的 Pod 会自动重启。
警告一旦将更改保存到监控配置映射,可能会重新部署相关项目中的 Pod 和其他资源。该项目中正在运行的监控进程也可能被重启。
通过查看相关项目中的部署或 Pod 配置来确认已应用了日志级别。以下示例检查
openshift-user-workload-monitoring项目中的prometheus-operator部署中的日志级别:$ oc -n openshift-user-workload-monitoring get deploy prometheus-operator -o yaml | grep "log-level"
输出示例
- --log-level=debug
检查组件的 Pod 是否正在运行。以下示例列出了
openshift-user-workload-monitoring项目中 Pod 的状态:$ oc -n openshift-user-workload-monitoring get pods
注意如果
ConfigMap中包含了一个未识别的logLevel值,则组件的 pod 可能无法成功重启。
6.3. 为 Prometheus 启用查询日志文件
您可以将 Prometheus 配置为将引擎运行的所有查询写入到日志文件。
由于不支持日志轮转,因此仅在需要对问题进行故障排除时才临时启用此功能。完成故障排除后,通过恢复您对 ConfigMap 对象所做的更改来禁用查询日志记录,以启用该功能。
先决条件
-
您可以使用具有
dedicated-admin角色的用户访问集群。 -
user-workload-monitoring-configConfigMap 对象存在。在集群创建时默认创建此对象。 -
已安装 OpenShift CLI(
oc)。
流程
在
openshift-user-workload-monitoring项目中编辑user-workload-monitoring-configConfigMap对象:$ oc -n openshift-user-workload-monitoring edit configmap user-workload-monitoring-config
在
data/config.yaml下为prometheus添加queryLogFile: <path>:apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | prometheus: queryLogFile: <path> 1- 1
- 将在其中记录查询的文件的路径。
保存文件以使改变生效。
警告当您将更改保存到监控配置映射时,可能会重新部署相关项目中的 Pod 和其他资源。该项目中正在运行的监控进程也可能被重启。
验证组件的 pod 是否正在运行。以下示例命令列出了
openshift-user-workload-monitoring项目中的 pod 状态:$ oc -n openshift-user-workload-monitoring get pods
读取查询日志:
$ oc -n openshift-user-workload-monitoring exec prometheus-user-workload-0 -- cat <path>
重要在检查了记录的查询信息后,恢复配置映射的设置。
第 7 章 为用户定义的项目禁用监控
作为 dedicated-admin,您可以为用户定义的项目禁用监控。您也可以从用户工作负载监控中排除各个项目。
7.1. 为用户定义的项目禁用监控
默认情况下,启用对用户定义的项目的监控。如果您不想使用内置监控堆栈来监控用户定义的项目,您可以禁用它。
流程
- 在 OpenShift Cluster Manager Hybrid Cloud Console 中选择一个集群。
- 点 Settings 选项卡。
单击 Enable user workload monitoring 复选框,以取消选择 选项,然后单击 Save。
禁用用户工作负载监控。Prometheus、Prometheus Operator 和 Thanos Ruler 组件在
openshift-user-workload-monitoring项目中停止。
7.2. 将用户定义的项目从监控中排除
用户工作负载监控中可以排除个别用户定义的项目。为此,请将 openshift.io/user-monitoring 标签添加到项目的命名空间,值设为 false。
流程
将标签添加到项目命名空间:
$ oc label namespace my-project 'openshift.io/user-monitoring=false'
要重新启用监控,请从命名空间中删除该标签:
$ oc label namespace my-project 'openshift.io/user-monitoring-'
注意如果项目有任何活跃的监控目标,Prometheus 可能需要几分钟时间在添加标签后停止提取它们。
第 8 章 为用户定义的项目启用警报路由
在 Red Hat OpenShift Service on AWS 中,dedicated-admin 可以为用户定义的项目启用警报路由。这个过程由两个常规步骤组成:
- 为用户定义的项目启用警报路由,以使用单独的 Alertmanager 实例。
- 授予用户权限来为用户定义的项目配置警报路由。
完成这些步骤后,开发人员和其他用户可以为用户定义的项目配置自定义警报和警报路由。
8.1. 了解用户定义的项目的警报路由
作为 dedicated-admin,您可以为用户定义的项目启用警报路由。使用此功能,您可以允许用户使用 alert-routing-edit 角色的用户为用户定义的项目配置警报通知路由和接收器。这些通知由专用于用户定义的监控的 Alertmanager 实例路由。
然后,用户可以通过为用户定义的项目创建或编辑 AlertmanagerConfig 对象来创建和配置用户定义的警报路由,而无需管理员的帮助。
用户为用户定义的项目定义了警报路由后,用户定义的警报通知将路由到 openshift-user-workload-monitoring 命名空间中的 alertmanager-user-workload Pod。
以下是用户定义的项目的警报路由的限制:
-
对于用户定义的警报规则,用户定义的路由范围到定义资源的命名空间。例如,命名空间
ns1中的路由配置仅适用于同一命名空间中的PrometheusRules资源。 -
当命名空间不包括在用户定义的监控中时,命名空间中的
AlertmanagerConfig资源将成为 Alertmanager 配置的一部分。
8.2. 为用户定义的警报路由启用一个单独的 Alertmanager 实例
在 Red Hat OpenShift Service on AWS 中,您可能想要为用户定义的项目部署专用 Alertmanager 实例,它提供与默认平台警报分开的用户定义的警报。在这些情况下,您可以选择性地启用一个单独的 Alertmanager 实例,以仅为用户定义的项目发送警报。
先决条件
-
您可以使用具有
dedicated-admin角色的用户访问集群。 -
user-workload-monitoring-configConfigMap对象存在。在集群创建时默认创建此对象。 -
已安装 OpenShift CLI(
oc)。
流程
编辑
user-workload-monitoring-configConfigMap对象:$ oc -n openshift-user-workload-monitoring edit configmap user-workload-monitoring-config
在
data/config.yaml下,添加alertmanager部分的enabled: true和enableAlertmanagerConfig: true:apiVersion: v1 kind: ConfigMap metadata: name: user-workload-monitoring-config namespace: openshift-user-workload-monitoring data: config.yaml: | alertmanager: enabled: true 1 enableAlertmanagerConfig: true 2- 保存文件以使改变生效。用于用户定义的项目的 Alertmanager 专用实例会自动启动。
验证
验证
alert-manager-user-workloadpod 是否正在运行:# oc -n openshift-user-workload-monitoring get pods
输出示例
NAME READY STATUS RESTARTS AGE alertmanager-user-workload-0 6/6 Running 0 38s alertmanager-user-workload-1 6/6 Running 0 38s ...
8.3. 授予用户权限来为用户定义的项目配置警报路由
您可以授予用户权限来为用户定义的项目配置警报路由。
先决条件
-
您可以使用具有
dedicated-admin角色的用户访问集群。 -
user-workload-monitoring-configConfigMap对象存在。在集群创建时默认创建此对象。 - 要将角色分配到的用户帐户已存在。
-
已安装 OpenShift CLI(
oc)。
流程
将
alert-routing-edit集群角色分配给用户定义的项目中的用户:$ oc -n <namespace> adm policy add-role-to-user alert-routing-edit <user> 1- 1
- 对于
<namespace>,替换用户定义的项目的命名空间,如ns1。对于<user>,替换您要为其分配该角色的帐户的用户名。
其他资源
8.4. 后续步骤
第 9 章 管理指标
您可以收集指标,以监控集群组件和您自己的工作负载的表现情况。
9.1. 了解指标
在 Red Hat OpenShift Service on AWS 中,集群组件的监控方式是提取通过服务端点公开的指标。您还可以为用户定义的项目配置指标集合。借助指标,您可以监控集群组件和您自己的工作负载的表现情况。
您可以通过在应用程序级别使用 Prometheus 客户端库来定义您要为您自己的工作负载提供的指标。
在 Red Hat OpenShift Service on AWS 中,指标通过 /metrics 规范名称下的 HTTP 服务端点公开。您可以通过针对 http://<endpoint>/metrics 运行 curl 查询来列出服务的所有可用指标。例如,您可以向 prometheus-example-app 示例应用程序公开路由,然后运行以下命令来查看其所有可用指标:
$ curl http://<example_app_endpoint>/metrics
输出示例
# HELP http_requests_total Count of all HTTP requests
# TYPE http_requests_total counter
http_requests_total{code="200",method="get"} 4
http_requests_total{code="404",method="get"} 2
# HELP version Version information about this binary
# TYPE version gauge
version{version="v0.1.0"} 1
其他资源
9.2. 为用户定义的项目设置指标集合
您可以创建一个 ServiceMonitor 资源,从用户定义的项目中的服务端点提取指标。这假设您的应用程序使用 Prometheus 客户端库向 /metrics 规范名称公开指标。
本节介绍了如何在用户定义的项目中部署示例服务,然后创建一个 ServiceMonitor 资源来定义应该如何监控该服务。
9.2.1. 部署示例服务
要为用户定义的项目中服务测试监控,您可以部署示例服务。
流程
-
为服务配置创建 YAML 文件。在本例中,该文件名为
prometheus-example-app.yaml。 在该文件中添加以下部署和服务配置详情:
apiVersion: v1 kind: Namespace metadata: name: ns1 --- apiVersion: apps/v1 kind: Deployment metadata: labels: app: prometheus-example-app name: prometheus-example-app namespace: ns1 spec: replicas: 1 selector: matchLabels: app: prometheus-example-app template: metadata: labels: app: prometheus-example-app spec: containers: - image: ghcr.io/rhobs/prometheus-example-app:0.4.1 imagePullPolicy: IfNotPresent name: prometheus-example-app --- apiVersion: v1 kind: Service metadata: labels: app: prometheus-example-app name: prometheus-example-app namespace: ns1 spec: ports: - port: 8080 protocol: TCP targetPort: 8080 name: web selector: app: prometheus-example-app type: ClusterIP此配置会在用户定义的
ns1项目中部署名为prometheus-example-app的服务。此服务会公开自定义version指标。将配置应用到集群:
$ oc apply -f prometheus-example-app.yaml
部署该服务需要一些时间。
您可以检查该 Pod 是否正在运行:
$ oc -n ns1 get pod
输出示例
NAME READY STATUS RESTARTS AGE prometheus-example-app-7857545cb7-sbgwq 1/1 Running 0 81m
9.2.2. 指定如何监控服务
要使用服务公开的指标,您必须配置 Red Hat OpenShift Service on AWS 来从 /metrics 端点中提取指标。您可以使用一个 ServiceMonitor 自定义资源定义(CRD)应该如何监控服务,或使用一个 PodMonitor CRD 指定应该如何监控 pod。前者需要 Service 对象,而后者则不需要,允许 Prometheus 直接从 Pod 公开的指标端点中提取指标。
此流程演示了如何为用户定义的项目中的服务创建 ServiceMonitor 资源。
前提条件
-
您可以使用具有
dedicated-admin角色或monitoring-edit角色的用户访问集群。 在本例中,您已在
ns1项目中部署了prometheus-example-app示例服务。注意prometheus-example-app示例服务不支持 TLS 身份验证。
流程
-
为
ServiceMonitor资源配置创建一个 YAML 文件。在本例中,该文件名为example-app-service-monitor.yaml。 添加以下
ServiceMonitor资源配置详情:apiVersion: monitoring.coreos.com/v1 kind: ServiceMonitor metadata: labels: k8s-app: prometheus-example-monitor name: prometheus-example-monitor namespace: ns1 spec: endpoints: - interval: 30s port: web scheme: http selector: matchLabels: app: prometheus-example-app这会定义一个
ServiceMonitor资源,用于提取由prometheus-example-app示例服务公开的指标,其中包含version指标。注意用户定义的命名空间中的
ServiceMonitor资源只能发现同一命名空间中的服务。也就是说,ServiceMonitor资源的namespaceSelector字段总是被忽略。将配置应用到集群:
$ oc apply -f example-app-service-monitor.yaml
部署
ServiceMonitor资源需要一些时间。您可以检查
ServiceMonitor资源是否正在运行:$ oc -n ns1 get servicemonitor
输出示例
NAME AGE prometheus-example-monitor 81m
9.3. 查询指标
Red Hat OpenShift Service on AWS 监控仪表板可让您运行 Prometheus Query Language (PromQL)查询来查看图表中呈现的指标。此功能提供有关集群以及要监控的任何用户定义工作负载的状态信息。
以 dedicated-admin 的身份,您可以同时查询一个或多个命名空间,以获取有关用户定义的项目的指标。
作为开发者,您必须在查询指标时指定项目名称。您必须具有所需权限才能查看所选项目的指标。
9.3.1. 以集群管理员身份查询所有项目的指标
作为 dedicated-admin 或具有所有项目的查看权限的用户,您可以在 Metrics UI 中的 AWS 和用户定义的项目上访问所有默认 Red Hat OpenShift Service 的指标。
只有专用管理员有权访问由 Red Hat OpenShift Service on AWS 监控提供的第三方 UI。
先决条件
-
您可以使用具有
dedicated-admin角色的用户访问集群,或具有所有项目的查看权限。 -
已安装 OpenShift CLI(
oc)。
流程
- 从 Red Hat OpenShift Service on AWS web 控制台中的 Administrator 视角,选择 Observe → Metrics。
要添加一个或多个查询,请执行以下操作之一:
选项 描述 创建自定义查询。
将 Prometheus Query Language (PromQL)查询添加到 Expression 字段中。
当您输入 PromQL 表达式时,自动完成建议会出现在下拉列表中。这些建议包括功能、指标、标签和时间令牌。您可以使用键盘箭头选择其中一项建议的项目,然后按 Enter 将项目添加到您的表达式中。您还可以将鼠标指针移到建议的项目上,以查看该项目的简短描述。
添加多个查询。
选择 Add query。
复制现有的查询。
选择查询旁边的 Options 菜单
,然后选择 Duplicate 查询。
禁用查询正在运行。
选择查询旁边的 Options 菜单
并选择 Disable query。
要运行您创建的查询,请选择 Run queries。图表中会直观呈现查询的指标。如果查询无效,则 UI 会显示错误消息。
注意如果查询对大量数据进行运算,这可能会在绘制时序图时造成浏览器超时或过载。要避免这种情况,请选择 Hide graph 并且仅使用指标表来校准查询。然后,在找到可行的查询后,启用图表来绘制图形。
注意默认情况下,查询表会显示一个展开的视图,列出每个指标及其当前值。您可以选择 ˅ 来最小化查询的展开视图。
- 可选:页面 URL 现在包含您运行的查询。要在以后再次使用这一组查询,请保存这个 URL。
探索视觉化指标。最初,图表中显示所有启用的查询中的所有指标。您可以通过执行以下操作来选择显示哪些指标:
选项 描述 隐藏查询中的所有指标。
点查询的 Options 菜单
并点 Hide all series。
隐藏特定指标。
前往查询表,再单击指标名称旁边的带颜色方方。
放大图表并更改时间范围。
任一:
- 点击图表并在水平方向上拖动,以可视化方式选择时间范围。
- 使用左上角的菜单来选择时间范围。
重置时间范围。
选择 Reset zoom。
在特定时间点显示所有查询的输出。
将鼠标光标悬停在图表上。弹出框中会显示查询输出。
隐藏图表。
选择 Hide graph。
其他资源
- 有关创建 PromQL 查询的更多信息,请参阅 Prometheus 查询文档。
9.3.2. 以开发者身份查询用户定义的项目的指标
您可以以开发者或具有项目查看权限的用户身份访问用户定义项目的指标。
在 Developer 视角中, Metrics UI 包括所选项目的一些预定义 CPU、内存、带宽和网络数据包查询。您还可以对项目的 CPU、内存、带宽、网络数据包和应用程序指标运行自定义 Prometheus Query Language (PromQL) 查询。
开发者只能使用 Developer 视角,而不能使用 Administrator 视角。作为开发者,您一次只能查询一个项目的指标。开发人员无法访问由 Red Hat OpenShift Service 在 AWS 监控上提供的第三方 UI。
前提条件
- 对于您要查看指标的项目,您可以作为开发者或具有查看权限的用户访问集群。
- 您已为用户定义的项目启用了监控。
- 您已在用户定义的项目中部署了服务。
-
您已为该服务创建了
ServiceMonitor自定义资源定义(CRD),以定义如何监控该服务。
流程
- 从 AWS Web 控制台中的 Red Hat OpenShift Service 中的 Developer 视角,选择 Observe → Metrics。
- 在 Project: 列表中选择您要查看指标的项目。
从 Select query 列表中选择查询,或者通过选择 Show PromQL 根据所选查询创建自定义 PromQL 查询。图表中会直观呈现查询的指标。
注意在 Developer 视角中,您一次只能运行一个查询。
通过执行以下操作来探索视觉化的指标:
选项 描述 放大图表并更改时间范围。
任一:
- 点击图表并在水平方向上拖动,以可视化方式选择时间范围。
- 使用左上角的菜单来选择时间范围。
重置时间范围。
选择 Reset zoom。
在特定时间点显示所有查询的输出。
将鼠标光标悬停在图表上。查询输出会出现在弹出窗口中。
其他资源
- 有关创建 PromQL 查询的更多信息,请参阅 Prometheus 查询文档。
9.4. 获取有关指标目标的详细信息
在 Red Hat OpenShift Service on AWS Web 控制台的 Administrator 视角中,您可以使用 Metrics 目标 页面查看、搜索和过滤当前用于提取的端点,这有助于识别和排除问题。例如,您可以查看目标端点的当前状态,以查看 Red Hat OpenShift Service on AWS Monitoring 无法从目标组件中提取指标。
Metrics 目标页面显示用户定义的项目的目标。
先决条件
-
您可以使用具有
dedicated-admin角色的用户访问集群。
流程
在 Administrator 视角中,选择 Observe → Targets。此时会打开 Metrics targets 页面,其中包含为指标提取的所有服务端点目标的列表。
本页显示了 Red Hat OpenShift Service on AWS 和用户定义的项目的目标详情。本页列出了每个目标的以下信息:
- 正在提取的服务端点 URL
- 被监控的 ServiceMonitor 组件
- 目标的 up 或 down 状态
- 命名空间
- 最后提取时间
- 最后一次提取的持续时间
可选:指标目标列表可能比较长。要查找特定目标,请执行以下操作之一:
选项 描述 根据状态和源过滤目标。
在 Filter 列表中选择 filters。
可用的过滤选项如下:
Status 过滤器:
- Up。目标当前已启动,正在主动抓取指标。
- Down。目标当前已停机,没有提取指标。
Source 过滤器:
- Platform。平台级别的目标仅与 AWS 默认项目的 Red Hat OpenShift Service 相关。这些项目提供 Red Hat OpenShift Service on AWS 核心功能。
- User。用户目标与用户定义的项目相关。这些项目是用户创建的,可以进行自定义。
根据名称或标签搜索目标。
在搜索框旁边的 Text 或 Label 字段中输入搜索词。
对目标进行排序。
点一个或多个 Endpoint Status,Namespace,Last Scrape, 和 Scrape Duration 列标头。
单击目标的 Endpoint 列中的 URL,以导航到其 Target 详情页面。本页提供有关目标的信息,包括:
- 为指标提取的端点 URL
- 目标的当前 Up 或 Down 状态
- 到命名空间的链接
- 到 ServiceMonitor 详情的链接
- 附加到目标的标签
- 为指标提取目标的最长时间
第 10 章 管理警报
在 Red Hat OpenShift Service on AWS 4 中,您可以通过 Alerting UI 管理警报、静默和警报规则。
- 警报规则。警报规则包含一组概述集群中特定状态的条件。当这些条件满足时会触发警报。可为警报规则分配一个严重性来定义警报的路由方式。
- 警报。当警报规则中定义的条件为满足时会触发警报。警报提供一条通知,说明 Red Hat OpenShift Service on AWS 集群中的一组情况是明显的。
- 静默。可对警报应用静默,以防止在警报条件满足时发送通知。在您着手处理根本问题的同时,您可在初始通知后将警报静音。
Alerting UI 中可用的警报、静默和警报规则与您可访问的项目相关。例如,如果您以具有 cluster-admin 角色的用户身份登录,您可以访问所有警报、静默和警报规则。
如果您是非管理员用户,如果您被分配了以下用户角色,您可以创建和静默警报:
-
cluster-monitoring-view集群角色,允许您访问 Alertmanager -
monitoring-alertmanager-edit角色,允许您在 web 控制台的 Administrator 视角中创建和静默警报 -
monitoring-rules-edit集群角色,允许您在 web 控制台的 Developer 视角中创建和静默警报。
10.1. 在 Administrator 和 Developer 视角中访问 Alerting UI
Alerting UI 可通过 Red Hat OpenShift Service on AWS Web 控制台中的 Administrator 视角和 Developer 视角访问。
- 在 Administrator 视角中,选择 Observe → Alerting。在此视角中,Alerting UI 有三个主要页面,即 Alerts、Silences 和 Alerting Rules 页面。
- 在 Developer 视角中,选择 Observe → <project_name> → Alerts。在这个视角中,警报、静默和警报规则都通过 Alerts 页面管理。Alerts 页面中显示的结果特定于所选项目。
在 Developer 视角中,您可以从可以在 Project: 列表中访问的 Red Hat OpenShift Service on AWS 核心项目和用户定义的项目中选择。但是,如果您没有以集群管理员身份登录,则不会显示与 Red Hat OpenShift Service on AWS 核心相关的警报、静默和警报规则。
10.2. 搜索和过滤警报、静默和警报规则
您可以过滤 Alerting UI 中显示的警报、静默和警报规则。本节介绍每个可用的过滤选项。
了解警报过滤器
在 Administrator 视角中,Alerting UI 中的 Alerts 页面提供有关与 Red Hat OpenShift Service on AWS 和用户定义的项目相关的警报的详细信息。该页面包括每个警报的严重性、状态和来源摘要。另外还会显示警报进入其当前状态的时间。
您可以按警报状态、严重性和来源进行过滤。默认情况下,只会显示处于 Firing 状态的 Platform 警报。下面描述了每个警报过滤选项:
Alert State 过滤器:
-
Firing。警报正在触发,因为满足警报条件,且可选的
for持续时间已过。只要条件一直满足,警报将继续触发。 - Pending。该警报处于活跃状态,但正在等待警报规则中指定的持续时间,然后再触发警报。
- Silenced。现在,警报在定义的时间段内处于静默状态。静默会根据您定义的一组标签选择器临时将警报静音。对于符合所有列出的值或正则表达式的警报,不会发送通知。
-
Firing。警报正在触发,因为满足警报条件,且可选的
Severity 过滤器:
- Critical。触发了警报的条件可能会产生重大影响。该警报在触发时需要立即关注,并且通常会传给个人或关键响应团队。
- Warning。该警报针对可能需要注意的事件提供警告通知,以防止问题的发生。警告通常会路由到一个问题单系统进行非即时的审阅。
- Info。该警报仅用于提供信息。
- None。该警报没有定义的严重性。
- 您还可以针对与用户定义的项目相关的警报创建自定义严重性定义。
Source 过滤器:
- Platform。平台级别的警报仅与 Red Hat OpenShift Service on AWS 项目相关。这些项目提供 Red Hat OpenShift Service on AWS 核心功能。
- User。用户警报与用户定义的项目相关。这些警报是用户创建的,并可自定义。用户定义的工作负载监控可在安装后启用,以便您观察自己的工作负载。
了解静默过滤器
在 Administrator 视角中,Alerting UI 中的 Silences 页面提供有关应用于 AWS 默认 Red Hat OpenShift Service on AWS 和用户定义的项目中警报的静默的详细信息。该页面包括每个静默的状态以及静默结束时间的摘要。
您可以按静默状态进行过滤。默认情况下,仅显示 Active 和 Pending 静默。下面描述了每个静默状态过滤器选项:
Silence State 过滤器:
- Active。静默处于活跃状态,在静默到期前,警报将静音。
- Pending。静默已被调度,但还没有激活。
- Expired。静默已过期,如果满足警报条件,将发送通知。
了解警报规则过滤器
在 Administrator 视角中,Alerting UI 中的 Alerting Rules 页面提供有关与 Red Hat OpenShift Service on AWS 和用户定义的项目相关的警报规则的详细信息。该页面包括每个警报规则的状态、严重性和来源摘要。
您可以按警报状态、严重性和来源过滤警报规则。默认情况下,只会显示 Platform 警报规则。下面描述了每个警报规则过滤选项:
Alert State 过滤器:
-
Firing。警报正在触发,因为满足警报条件,且可选的
for持续时间已过。只要条件一直满足,警报将继续触发。 - Pending。该警报处于活跃状态,但正在等待警报规则中指定的持续时间,然后再触发警报。
- Silenced。现在,警报在定义的时间段内处于静默状态。静默会根据您定义的一组标签选择器临时将警报静音。对于符合所有列出的值或正则表达式的警报,不会发送通知。
- Not Firing。警报未触发。
-
Firing。警报正在触发,因为满足警报条件,且可选的
Severity 过滤器:
- Critical。警报规则中定义的条件可能会产生重大影响。如果满足这些条件,需要立即关注。与该规则相关的警报通常会传给个人或关键响应团队。
- Warning。警报规则中定义的条件可能需要注意,以防止问题的发生。与该规则相关的警报通常会路由到一个问题单系统进行非即时的审阅。
- Info。警报规则仅提供信息警报。
- None。该警报规则没有定义的严重性。
- 您还可以针对与用户定义的项目相关的警报规则创建自定义严重性定义。
Source 过滤器:
- Platform。平台级别的警报规则仅与 AWS 项目的默认 Red Hat OpenShift Service 相关。这些项目提供 Red Hat OpenShift Service on AWS 核心功能。
- User。用户定义的工作负载警报规则与用户定义的项目相关。这些警报规则是用户创建的,并可自定义。用户定义的工作负载监控可在安装后启用,以便您观察自己的工作负载。
在 Developer 视角中搜索和过滤警报、静默和警报规则
在 Developer 视角中,Alerting UI 中的 Alerts 页面提供了与所选项目相关的警报和静默的组合视图。对于每个显示的警报,都提供了相关警报规则的链接。
在该视图中,您可以按警报状态和严重性进行过滤。默认情况下,如果您有访问所选项目的权限,则会显示项目中的所有警报。这些过滤器与针对 Administrator 视角描述的过滤器相同。
10.3. 获取关于警报、静默和警报规则的信息
Alerting UI 提供有关警报及其相关警报规则和静默的详细信息。
先决条件
- 对于您要查看指标的项目,您可以作为开发者或具有查看权限的用户访问集群。
流程
要在 Administrator 视角中获取有关警报的信息:
- 打开 Red Hat OpenShift Service on AWS web 控制台,进入到 Observe → Alerting → Alerts 页面。
- 可选:使用搜索列表中的 Name 字段按名称搜索警报。
- 可选:通过选择 Filter 列表中的过滤器来按状态、严重性和来源过滤警报。
- 可选:点击 Name、Severity、State 和 Source 列标题中的一个或多个标题对警报进行排序。
选择警报的名称以导航到其 Alert Details 页面。该页面包含一个说明警报时间序列数据的图形。它还提供与此警报相关的信息,包括:
- 警报的描述
- 与警报关联的消息
- 附加到警报的标签
- 其相关警报规则的链接
- 警报的静默(如果存在)
要在 Administrator 视角中获取有关静默的信息:
- 进入到 Observe → Alerting → Silences 页面。
- 可选:使用 Search by name 字段按名称过滤静默。
- 可选:通过选择 Filter 列表中的过滤器来按状态过滤静默。默认情况下会应用 Active 和 Pending 过滤器。
- 可选:点击 Name、Firing alerts 和 State 列标题中的一个或多个标题对静默进行排序。
选择静默的名称以导航到其 Silence Details 页面。该页面包括以下详情:
- 警报指定条件
- 开始时间
- 结束时间
- 静默状态
- 触发警报的数目和列表
要在 Administrator 视角中获取有关警报规则的信息:
- 进入到 Observe → Alerting → Alerting Rules 页面。
- 可选:通过选择 Filter 列表中的过滤器来按状态、严重性和来源过滤警报规则。
- 可选:点击 Name、Severity、Alert State 和 Source 列标题中的一个或多个标题对警报规则进行排序。
选择警报规则的名称以导航到其 Alerting Rule Details 页面。该页面提供有关警报规则的以下详情:
- 警报规则名称、严重性和描述
- 定义触发此警报的条件的表达式
- 触发警报的条件得到满足的时间
- 受警报规则约束的各个警报的图形,其中显示了触发该警报的值
- 受警报规则约束的所有警报的列表
要在 Developer 视角中获取有关警报、静默和警报规则的信息:
- 进入到 Observe → <project_name> → Alerts 页面。
查看警报、静默或警报规则的详情:
- 要查看 Alert Details,可选择警报名称左侧的 >,然后在列表中选择警报。
要查看 Silence Details,可在 Alert Details 页面的 Silenced By 部分中选择静默。Silence Details 页面包括以下信息:
- 警报指定条件
- 开始时间
- 结束时间
- 静默状态
- 触发警报的数目和列表
-
要查看 Alerting Rule Details,可在 Alerts 页面中警告右侧的
菜单中选择 View Alerting Rule。
Developer 视角中仅显示与所选项目相关的警报、静默和警报规则。
其他资源
- 请参阅 Cluster Monitoring Operator runbooks,以帮助诊断和解决触发特定 Red Hat OpenShift Service on AWS 监控警报的问题。
10.4. 管理静默
您可以创建一个静默,在警报触发时停止接收有关警报的通知。在您解决根本问题的同时,在收到第一次通知后将警报置于静默状态可能很有用。
在创建静默时,您必须指定它是立即激活,还是稍后激活。您还必须设置静默在多长一段时间后到期。
您可以查看、编辑现有的静默并使其到期。
10.4.1. 静默警报
您可以静默特定的警报,或者静默符合您定义的指定条件的警报。
先决条件
-
如果您是集群管理员,可以使用具有
dedicated-admin角色的用户访问集群。 如果您是非管理员用户,您可以使用具有以下用户角色的用户访问集群:
-
cluster-monitoring-view集群角色,允许您访问 Alertmanager。 -
monitoring-alertmanager-edit角色,允许您在 web 控制台的 Administrator 视角中创建和静默警报 -
monitoring-rules-edit集群角色,允许您在 web 控制台的 Developer 视角中创建和静默警报。
-
流程
静默特定的警报:
在 Administrator 视角中:
- 导航到 Red Hat OpenShift Service on AWS Web 控制台的 Observe → Alerting → Alerts 页面。
-
对于您要置于静默状态的警报,请选择右列中的
并选择 Silence Alert。这时会显示 Silence Alert 表单,其中预先填充了所选警报的规格。
- 可选:修改静默。
- 在创建静默前您必须添加注释。
- 若要创建静默,请选择 Silence。
在 Developer 视角中:
- 进入到 Red Hat OpenShift Service on AWS web 控制台的 Observe → < project_name > → Alerts 页面。
- 选择警报名称左侧的 > 来展开警报的详情。选择展开视图中的警报名称以打开警报的 Alert Details 页面。
- 选择 Silence Alert。这时会显示 Silence Alert 表单,其中预先填充了所选警报的规格。
- 可选:修改静默。
- 在创建静默前您必须添加注释。
- 若要创建静默,请选择 Silence。
要在 Administrator 视角中通过创建警报规格来将一组警报置于静默状态:
- 导航到 Red Hat OpenShift Service on AWS Web 控制台中的 Observe → Alerting → Silences 页面。
- 选择 Create Silence。
- 在 Create Silence 表单中设置警报的时间表、持续时间和标签详情。您还必须为静默添加注释。
- 要为与您在上一步中输入的标签选择器匹配的警报创建静默,请选择 Silence。
10.4.2. 编辑静默
您可以编辑静默,这样会导致现有静默到期,并以更改后的配置创建新静默。
流程
要在 Administrator 视角中编辑静默:
- 进入到 Observe → Alerting → Silences 页面。
针对您想要修改的静默,选择最后一列中的
,然后选择 Edit silence。
另外,您还可以在静默的 Silence Details 页面中选择 Actions → Edit Silence。
- 在 Edit Silence 页面中,输入您的更改并选择 Silence。这会使现有的静默到期,并以所选配置创建新静默。
要在 Developer 视角中编辑静默:
- 进入到 Observe → <project_name> → Alerts 页面。
- 选择警报名称左侧的 > 来展开警报的详情。选择展开视图中的警报名称以打开警报的 Alert Details 页面。
- 在该页面的 Silenced By 部分中选择静默名称,以导航到该静默的 Silence Details 页面。
- 选择静默的名称以导航到其 Silence Details 页面。
- 在静默的 Silence Details 页面中选择 Actions → Edit Silence。
- 在 Edit Silence 页面中,输入您的更改并选择 Silence。这会使现有的静默到期,并以所选配置创建新静默。
10.4.3. 使静默到期
您可以让静默到期。让静默到期会永久停用这一静默。
您无法删除已过期、静默的警报。收集超过 120 小时的过期的静默会被收集。
流程
在 Administrator 视角中使静默到期:
- 进入到 Observe → Alerting → Silences 页面。
针对您想要修改的静默,选择最后一列中的
,然后选择 Expire silence。
另外,您还可以在静默的 Silence Details 页面中选择 Actions → Expire Silence。
要在 Developer 视角中使静默到期:
- 进入到 Observe → <project_name> → Alerts 页面。
- 选择警报名称左侧的 > 来展开警报的详情。选择展开视图中的警报名称以打开警报的 Alert Details 页面。
- 在该页面的 Silenced By 部分中选择静默名称,以导航到该静默的 Silence Details 页面。
- 选择静默的名称以导航到其 Silence Details 页面。
- 在静默的 Silence Details 页面中选择 Actions → Expire Silence。
10.5. 为用户定义的项目管理警报规则
Red Hat OpenShift Service on AWS 监控附带一组默认警报规则。作为集群管理员,您可以查看默认警报规则。
在 Red Hat OpenShift Service on AWS 4 中,您可以在用户定义的项目中创建、查看、编辑和删除警报规则。
为用户定义的项目管理警报规则仅适用于 Red Hat OpenShift Service on AWS 版本 4.11 及更新的版本。
警报规则注意事项
- 默认警报规则专门用于 Red Hat OpenShift Service on AWS 集群。
- 有些警报规则特意使用相同的名称。它们发送关于同一事件但具有不同阈值和/或不同严重性的警报。
- 如果较低严重性警报在较高严重性警报触发的同时触发,禁止规则可防止在这种情况下发送通知。
10.5.1. 为用户定义的项目优化警报
要优化您自己的项目的警报,您可以在创建警报规则时考虑以下建议:
- 尽可能减少您为项目创建的警报规则数量。创建警报规则来针对会影响您的条件通知您。如果您为不会影响您的条件生成多个警报,则更难以注意到相关警报。
- 为症状而不是原因创建警报规则。创建警报规则来针对条件通知您,而无论根本原因是什么。然后可以调查原因。如果每个警报规则都只与特定原因相关,则需要更多警报规则。然后,可能会错过一些原因。
- 在编写警报规则前进行规划。确定对您很重要的症状以及一旦发生您想要采取什么操作。然后为每个症状构建警报规则。
- 提供明确的警报信息。在警报消息中说明症状和推荐操作。
- 在警报规则中包含严重性级别。警报的严重性取决于当报告的症状发生时您需要如何做出反应。例如,如果症状需要个人或关键响应团队立即关注,就应该触发关键警报。
优化警报路由。如果规则没有查询默认的 Red Hat OpenShift Service on AWS 指标,则直接在
openshift-user-workload-monitoring项目中的 Prometheus 实例上部署警报规则。这可减少警报规则的延迟,并尽可能降低监控组件的负载。警告用户定义的项目的默认 Red Hat OpenShift Service on AWS 指标提供有关 CPU 和内存用量、带宽统计和数据包速率信息的信息。如果您将规则直接路由到
openshift-user-workload-monitoring项目中的 Prometheus 实例,则无法将这些指标包含在警报规则中。只有在您阅读了文档并对监控架构有了全面的了解后,才应使用警报规则优化。
其他资源
- 如需更多有关优化警报的指南,请参阅 Prometheus 警报文档
10.5.2. 为用户定义的项目创建警报规则
您可以为用户定义的项目创建警报规则。这些警报规则将根据所选指标的值触发警报。
先决条件
- 您已为用户定义的项目启用了监控。
-
对于您要创建警报规则的项目,您已作为具有
monitoring-rules-edit集群角色的用户登录。 -
已安装 OpenShift CLI(
oc)。
流程
-
为警报规则创建 YAML 文件。在本例中,该文件名为
example-app-alerting-rule.yaml。 向 YAML 文件添加警报规则配置。例如:
注意当创建警报规则时,如果在其他项目中存在具有相同名称的规则,则对其强制使用项目标签。
apiVersion: monitoring.coreos.com/v1 kind: PrometheusRule metadata: name: example-alert namespace: ns1 spec: groups: - name: example rules: - alert: VersionAlert expr: version{job="prometheus-example-app"} == 0此配置会创建一个名为
example-alert的警报规则。当示例服务公开的version指标变为0时,警报规则会触发警报。重要用户定义的警报规则可以包含其自身项目的指标和集群指标。您不能包含其他用户定义的项目的指标。
例如,用户定义的项目
ns1的警报规则可以包含来自ns1的指标和集群指标,如 CPU 和内存指标。但是,该规则无法包含来自ns2的指标。另外,您无法为
openshift-*核心 Red Hat OpenShift Service on AWS 项目创建警报规则。Red Hat OpenShift Service on AWS 监控默认为这些项目提供一组警报规则。将配置文件应用到集群:
$ oc apply -f example-app-alerting-rule.yaml
创建警报规则需要一些时间。
10.5.3. 减少不查询平台指标的警报规则的延迟
如果用户定义的项目的警报规则不查询默认集群指标,您可以在 openshift-user-workload-monitoring 项目中的 Prometheus 实例上直接部署该规则。这可绕过不需要的 Thanos Ruler,从而减少警报规则的延迟。这也有助于尽可能降低监控组件的总负载。
用户定义的项目的默认 Red Hat OpenShift Service on AWS 指标提供有关 CPU 和内存用量、带宽统计和数据包速率信息的信息。如果您将规则直接部署到 openshift-user-workload-monitoring 项目中的 Prometheus 实例,则无法将这些指标包含在警报规则中。只有在您阅读了文档并对监控架构有了全面的了解后,才应使用本节中所述的流程。
先决条件
- 您已为用户定义的项目启用了监控。
-
对于您要创建警报规则的项目,您已作为具有
monitoring-rules-edit集群角色的用户登录。 -
已安装 OpenShift CLI(
oc)。
流程
-
为警报规则创建 YAML 文件。在本例中,该文件名为
example-app-alerting-rule.yaml。 向 YAML 文件添加警报规则配置,该文件中包含键为
openshift.io/prometheus-rule-evaluation-scope且值为leaf- prometheus的标签。例如:apiVersion: monitoring.coreos.com/v1 kind: PrometheusRule metadata: name: example-alert namespace: ns1 labels: openshift.io/prometheus-rule-evaluation-scope: leaf-prometheus spec: groups: - name: example rules: - alert: VersionAlert expr: version{job="prometheus-example-app"} == 0如果存在该标签,则会在
openshift-user-workload-monitoring项目中的 Prometheus 实例上部署警报规则。如果不存在该标签,则会将警报规则部署到 Thanos Ruler。将配置文件应用到集群:
$ oc apply -f example-app-alerting-rule.yaml
创建警报规则需要一些时间。
其他资源
- 如需了解有关 Red Hat OpenShift Service on AWS 4 监控架构的详细信息,请参阅监控概述。
10.5.4. 访问用户定义的项目的警报规则
要列出用户定义的项目的警报规则,您必须已被分配该项目的 monitoring-rules-view 集群角色。
先决条件
- 您已为用户定义的项目启用了监控。
-
您以具有项目的
monitoring-rules-view集群角色的用户身份登录。 -
已安装 OpenShift CLI(
oc)。
流程
列出 <
project> 中的警报规则:$ oc -n <project> get prometheusrule
要列出警报规则的配置,请运行以下命令:
$ oc -n <project> get prometheusrule <rule> -o yaml
10.5.5. 在单个视图中列出所有项目的警报规则
作为 dedicated-admin,您可以在单个视图中一起列出 Red Hat OpenShift Service on AWS 核心项目和用户定义的项目的警报规则。
先决条件
-
您可以使用具有
dedicated-admin角色的用户访问集群。 -
已安装 OpenShift CLI(
oc)。
流程
- 在 Administrator 视角中,导航到 Observe → Alerting → Alerting rules。
在 Filter 下拉菜单中选择 Platform 和 User 来源。
注意默认会选择 Platform 来源。
10.5.6. 为用户定义的项目删除警报规则
您可以为用户定义的项目删除警报规则。
先决条件
- 您已为用户定义的项目启用了监控。
-
对于您要创建警报规则的项目,您已作为具有
monitoring-rules-edit集群角色的用户登录。 -
已安装 OpenShift CLI(
oc)。
流程
要删除
<namespace>中的规则<foo>,请运行以下命令:$ oc -n <namespace> delete prometheusrule <foo>
其他资源
- 请参阅 Alertmanager 文档
10.6. 将通知发送到外部系统
在 Red Hat OpenShift Service on AWS 4 中,可在 Alerting UI 中查看触发警报。默认不会将警报配置为发送到任何通知系统。您可以配置 Red Hat OpenShift Service on AWS,将警报发送到以下接收器类型:
- PagerDuty
- Webhook
- 电子邮件
- Slack
通过将警报路由到接收器,您可在出现故障时及时向适当的团队发送通知。例如,关键警报需要立即关注,通常会传给个人或关键响应团队。相反,提供非关键警告通知的警报可能会被路由到一个问题单系统进行非即时的审阅。
使用 watchdog 警报检查警报是否工作正常
Red Hat OpenShift Service on AWS 监控包括持续触发的 watchdog 警报。Alertmanager 重复向已配置的通知提供程序发送 watchdog 警报通知。此提供程序通常会配置为在其停止收到 watchdog 警报时通知管理员。这种机制可帮助您快速识别 Alertmanager 和通知提供程序之间的任何通信问题。
10.6.1. 为用户定义的项目创建警报路由
如果您是一个带有 alert-routing-edit 集群角色的非管理员用户,您可以创建或编辑用户定义的项目的警报路由。
先决条件
- 为用户定义的项目启用了警报路由。
-
您以具有您要为其创建警报路由的项目的
alert-routing-edit集群角色的用户身份登录。 -
已安装 OpenShift CLI(
oc)。
流程
-
创建用于警报路由的 YAML 文件。此流程中的示例使用名为
example-app-alert-routing.yaml的文件。 在文件中添加
AlertmanagerConfigYAML 定义。例如:apiVersion: monitoring.coreos.com/v1beta1 kind: AlertmanagerConfig metadata: name: example-routing namespace: ns1 spec: route: receiver: default groupBy: [job] receivers: - name: default webhookConfigs: - url: https://example.org/post注意对于用户定义的警报规则,用户定义的路由范围到定义资源的命名空间。例如,
AlertmanagerConfig对象中为命名空间ns1定义的路由配置仅适用于同一命名空间中的PrometheusRules资源。- 保存该文件。
将资源应用到集群:
$ oc apply -f example-app-alert-routing.yaml
配置会自动应用到 Alertmanager pod。
10.7. 将自定义配置应用到 Alertmanager 以进行用户定义的警报路由
如果您已经启用了单独的 Alertmanager 实例,专用于用户定义的警报路由,您可以通过编辑 openshift-user-workload-monitoring 命名空间中的 alertmanager-user-workload secret 来覆盖此 Alertmanager 实例的配置。
先决条件
-
您可以使用具有
dedicated-admin角色的用户访问集群。 -
已安装 OpenShift CLI(
oc)。
流程
将当前活跃的 Alertmanager 配置输出到
alertmanager.yaml文件:$ oc -n openshift-user-workload-monitoring get secret alertmanager-user-workload --template='{{ index .data "alertmanager.yaml" }}' | base64 --decode > alertmanager.yaml编辑
alertmanager.yaml中的配置:route: receiver: Default group_by: - name: Default routes: - matchers: - "service = prometheus-example-monitor" 1 receiver: <receiver> 2 receivers: - name: Default - name: <receiver> # <receiver_configuration>应用文件中的新配置:
$ oc -n openshift-user-workload-monitoring create secret generic alertmanager-user-workload --from-file=alertmanager.yaml --dry-run=client -o=yaml | oc -n openshift-user-workload-monitoring replace secret --filename=-
其他资源
- 参阅 PagerDuty 官方网站来进一步了解 PagerDuty。
-
参阅 PagerDuty Prometheus 集成指南来学习如何检索
service_key。 - 参阅 Alertmanager 配置来配置通过不同警报接收器发送警报。
第 11 章 查看监控仪表板
Red Hat OpenShift Service on AWS 提供了监控仪表板,可帮助您了解用户定义的项目的状态。
使用 Administrator 视角访问 Red Hat OpenShift Service 在 AWS 组件上核心的仪表板,包括以下项目:
- API 性能
- etcd
- Kubernetes 计算资源
- Kubernetes 网络资源
- Prometheus
- 与集群和节点性能相关的 USE 方法仪表板
图 11.1. Administrator 视角中的仪表板示例

使用 Developer 视角访问为所选项目提供以下应用程序指标的 Kubernetes 计算资源仪表板:
- CPU 用量
- 内存用量
- 带宽信息
- 数据包速率信息
图 11.2. Developer 视角中的仪表板示例

在 Developer 视角中,您一次只能查看一个项目的仪表板。
11.1. 以集群管理员身份查看监控仪表板
在 Administrator 视角中,您可以查看与 Red Hat OpenShift Service on AWS 集群组件相关的仪表板。
先决条件
-
您可以使用具有
dedicated-admin角色的用户访问集群。
流程
- 在 Red Hat OpenShift Service on AWS web 控制台的 Administrator 视角中,进入到 Observe → Dashboards。
- 在 Dashboard 列表中选择一个仪表板。有些仪表板(如 etcd 和 Prometheus 仪表板)在被选中时会生成额外的子菜单。
可选:在 Time Range 列表中为图形选择一个时间范围。
- 选择预定义的时间段。
通过选择 Time Range 列表中的 Custom 时间范围 来设置自定义时间范围。
- 输入或选择 From 和 To date and time。
- 单击 Save 以保存自定义时间范围。
- 可选:选择一个 Refresh Interval。
- 将鼠标悬停在仪表板中的每个图形上,以显示具体项目的详细信息。
11.2. 以开发者身份查看监控仪表板
在 Developer 视角中,您可以查看与所选项目相关的仪表板。您必须具有监控项目的访问权限,才能查看其仪表板信息。
先决条件
- 您可以使用开发人员或用户访问集群。
- 有您通过仪表板查看的项目的查看权限。
流程
- 在 Red Hat OpenShift Service on AWS web 控制台的 Developer 视角中,进入到 Observe → Dashboard。
- 从 Project: 下拉列表中选择一个项目。
从 Dashboard 下拉列表中选择一个仪表板,以查看过滤的指标。
注意选择时,所有仪表板会生成额外的子菜单,但 Kubernetes / Compute Resources / Namespace(Pods) 除外。
可选:在 Time Range 列表中为图形选择一个时间范围。
- 选择预定义的时间段。
通过选择 Time Range 列表中的 Custom 时间范围 来设置自定义时间范围。
- 输入或选择 From 和 To date and time。
- 单击 Save 以保存自定义时间范围。
- 可选:选择一个 Refresh Interval。
- 将鼠标悬停在仪表板中的每个图形上,以显示具体项目的详细信息。
11.3. 后续步骤
第 12 章 访问第三方的监控 API
在 Red Hat OpenShift Service on AWS 4 中,您可以从 CLI 访问一些第三方监控组件的 Web 服务 API。
12.1. 访问第三方监控 Web 服务 API
您可以在命令行中针对以下监控堆栈组件直接访问第三方 Web 服务 API:Prometheus、Alertmanager、Thanos Ruler 和 Thanos Querier。
以下示例命令演示了如何查询 Alertmanager 的服务 API 接收器。本例要求关联用户帐户与 openshift-monitoring 命名空间中的 monitoring-alertmanager-edit 角色绑定,并且帐户具有查看路由的权限。此访问仅支持使用 Bearer 令牌进行身份验证。
$ oc login -u <username> -p <password>
$ host=$(oc -n openshift-monitoring get route alertmanager-main -ojsonpath={.spec.host})$ token=$(oc whoami -t)
$ curl -H "Authorization: Bearer $token" -k "https://$host/api/v2/receivers"
要访问 Thanos Ruler 和 Thanos Querier 服务 API,请求的帐户必须具有命名空间资源的 get 权限,这些资源可通过向帐户授予 cluster-monitoring-view 集群角色来完成。
12.2. 使用 Prometheus 的联邦端点查询指标
您可以使用联邦端点从集群外的网络位置提取平台和用户定义的指标。为此,请通过 Red Hat OpenShift Service on AWS 路由访问集群的 Prometheus /federate 端点。
使用联邦时检索指标数据的延迟。这个延迟可能会影响提取指标的准确性和时间表。
使用联邦端点也可以降低集群的性能和可扩展性,特别是在使用联邦端点来获取大量指标数据时。要避免这些问题,请遵循以下建议:
- 不要尝试通过联邦端点检索所有指标数据。只有在您要检索有限、聚合的数据集时才会查询。例如,检索每个请求数量少于 1,000 个样本,有助于最大程度降低性能下降的风险。
- 避免频繁查询联邦端点。将查询限制为每 30 秒最多一个。
如果您需要在集群外转发大量数据,请使用远程写入。如需更多信息,请参阅配置远程写入存储部分。
先决条件
-
已安装 OpenShift CLI(
oc)。 - 您已获取 Red Hat OpenShift Service on AWS 路由的主机 URL。
您可以使用具有
cluster-monitoring-view集群角色的用户,或者获取了对命名空间资源具有get权限的 bearer 令牌来访问集群。注意您只能使用 bearer 令牌身份验证来访问联邦端点。
流程
检索 bearer 令牌:
$ token=`oc whoami -t`
查询
/federate路由的指标。以下示例查询up指标 :$ curl -G -s -k -H "Authorization: Bearer $token" \ 'https://<federation_host>/federate' \ 1 --data-urlencode 'match[]=up'- 1
- 对于 <federation_host>,替换为路由的主机 URL。
输出示例
# TYPE up untyped up{apiserver="kube-apiserver",endpoint="https",instance="10.0.143.148:6443",job="apiserver",namespace="default",service="kubernetes",prometheus="openshift-monitoring/k8s",prometheus_replica="prometheus-k8s-0"} 1 1657035322214 up{apiserver="kube-apiserver",endpoint="https",instance="10.0.148.166:6443",job="apiserver",namespace="default",service="kubernetes",prometheus="openshift-monitoring/k8s",prometheus_replica="prometheus-k8s-0"} 1 1657035338597 up{apiserver="kube-apiserver",endpoint="https",instance="10.0.173.16:6443",job="apiserver",namespace="default",service="kubernetes",prometheus="openshift-monitoring/k8s",prometheus_replica="prometheus-k8s-0"} 1 1657035343834 ...
12.3. 其他资源
第 13 章 监控问题的故障排除
查找用户定义的项目监控中常见问题的故障排除步骤。
13.1. 确定为什么用户定义的项目指标不可用
如果在监控用户定义的项目时没有显示指标,请按照以下步骤排除此问题。
流程
查询指标名称,并验证项目是否正确:
- 从 web 控制台中的 Developer 视角,选择 Observe → Metrics。
- 在 Project: 列表中选择您要查看指标的项目。
从 Select query 列表中选择查询,或通过选择 Show PromQL 运行自定义 PromQL 查询。
指标显示在图表中。
查询需要基于每个项目。显示的指标与您选择的项目相关。
验证您要来自的 pod 是否活跃提供指标。在一个 pod 中运行以下
oc exec命令,以podIP、port, and/metrics为目标。$ oc exec <sample_pod> -n <sample_namespace> -- curl <target_pod_IP>:<port>/metrics
注意您必须在安装了
curl的 pod 上运行命令。以下示例输出显示了具有有效版本指标的结果。
输出示例
% Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed # HELP version Version information about this binary-- --:--:-- --:--:-- 0 # TYPE version gauge version{version="v0.1.0"} 1 100 102 100 102 0 0 51000 0 --:--:-- --:--:-- --:--:-- 51000无效的输出表示对应应用程序存在问题。
-
如果使用
PodMonitorCRD,请验证PodMonitorCRD 是否已配置为使用标签匹配指向正确的 pod。如需更多信息,请参阅 Prometheus Operator 文档。 如果您使用
ServiceMonitorCRD,如果 pod 的/metrics端点显示指标数据,请按照以下步骤验证配置:验证该服务是否已指向正确的
/metrics端点。输出中的服务标签必须与服务监控标签和后续步骤中服务定义的/metrics端点匹配。$ oc get service
输出示例
apiVersion: v1 kind: Service 1 metadata: labels: 2 app: prometheus-example-app name: prometheus-example-app namespace: ns1 spec: ports: - port: 8080 protocol: TCP targetPort: 8080 name: web selector: app: prometheus-example-app type: ClusterIP
查询
serviceIP、port和/metrics端点,以查看前面在 pod 上运行的curl命令中的相同指标:运行以下命令来查找服务 IP:
$ oc get service -n <target_namespace>
查询
/metrics端点:$ oc exec <sample_pod> -n <sample_namespace> -- curl <service_IP>:<port>/metrics
以下示例中返回有效指标。
输出示例
% Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed 100 102 100 102 0 0 51000 0 --:--:-- --:--:-- --:--:-- 99k # HELP version Version information about this binary # TYPE version gauge version{version="v0.1.0"} 1
使用标签匹配来验证
ServiceMonitor对象是否已配置为指向所需服务。为此,将oc get service输出中的Service对象与oc get servicemonitor中输出的ServiceMonitor对象进行比较。标签必须与要显示的指标匹配。例如,在前面的步骤中,注意
Service对象如何具有app: prometheus-example-app标签,而ServiceMonitor对象具有相同的app: prometheus-example-app匹配标签。
- 如果一切都有效且指标仍不可用,请联系支持团队以获得进一步的帮助。
13.2. 确定为什么 Prometheus 消耗大量磁盘空间
开发人员可以使用键值对的形式为指标定义属性。潜在的键值对数量与属性的可能值数量对应。具有无限数量可能值的属性被称为未绑定属性。例如,customer_id 属性不绑定,因为它有无限多个可能的值。
每个分配的键值对都有唯一的时间序列。在标签中使用许多未绑定属性可导致所创建的时间序列数量出现指数增加。这可能会影响 Prometheus 性能,并消耗大量磁盘空间。
当 Prometheus 消耗大量磁盘时,您可以使用以下方法:
- 检查正在收集的提取示例数量。
- 使用 Prometheus HTTP API 检查时间序列数据库(TSDB)状态,以了解有关哪些标签创建最多时间序列的更多信息。这样做需要集群管理员特权。
要减少创建的唯一时间序列数量,您可以减少分配给用户定义的指标的未绑定属性数量。
注意使用绑定到一组有限可能值的属性可减少潜在的键-值对组合数量。
- 对可在用户定义的项目中提取的示例数量实施限制。这需要集群管理员特权。
先决条件
-
您可以使用具有
dedicated-admin角色的用户访问集群。 -
已安装 OpenShift CLI(
oc)。
流程
- 在 Administrator 视角中,进入到 Observe → Metrics。
在 Expression 字段中运行以下 Prometheus Query Language (PromQL) 查询。这会返回具有最高提取示例数的十个指标:
topk(10,count by (job)({__name__=~".+"}))如果指标的提取示例数大于预期,请检查分配给指标的未绑定标签值数量。
- 如果指标与用户定义的项目相关,请查看分配给您的工作负载的指标键-值对。它们通过应用程序级别的 Prometheus 客户端库实施。尝试限制标签中引用的未绑定属性数量。
- 如果指标与 Red Hat OpenShift Service on AWS 核心项目相关,请 在红帽客户门户网站上创建一个红帽支持问题单。
运行以下命令,作为
dedicated-admin,使用 Prometheus HTTP API 查看 TSDB 状态:$ oc login -u <username> -p <password>
$ host=$(oc -n openshift-monitoring get route prometheus-k8s -ojsonpath={.spec.host})$ token=$(oc whoami -t)
$ curl -H "Authorization: Bearer $token" -k "https://$host/api/v1/status/tsdb"
输出示例
"status": "success",
其他资源
- 如需有关如何设置提取示例限制和创建相关警报规则的详细信息,请参阅为用户定义的项目设置提取示例限制
- 提交支持问题单
第 14 章 Cluster Monitoring Operator 的配置映射引用
14.1. Cluster Monitoring Operator 配置参考
Red Hat OpenShift Service on AWS 集群监控的一部分可以配置。该 API 可通过设置各种配置映射中定义的参数来访问。
-
要配置监控组件,请编辑
openshift-monitoring命名空间中的名为cluster-monitoring-config的ConfigMap对象。这些配置由 ClusterMonitoringConfiguration 定义。 -
要配置用于监控用户定义的项目的监控组件,请编辑
openshift-user-workload-monitoring命名空间中名为user-workload-monitoring-config的ConfigMap对象。这些配置由 UserWorkloadConfiguration 定义。
配置文件始终在配置映射数据的 config.yaml 键下定义。
- 并非所有配置参数都会被公开。
- 配置集群监控是可选的。
- 如果配置不存在或为空,则使用默认值。
-
如果配置无效 YAML 数据,Cluster Monitoring Operator 会在 Operator 状态条件中停止协调资源并报告
Degraded=True。
14.2. AdditionalAlertmanagerConfig
14.2.1. 描述
AdditionalAlertmanagerConfig 资源定义组件如何与其他 Alertmanager 实例通信的设置。
14.2.2. 必需
-
apiVersion
会出现在: PrometheusK8sConfig、PrometheusRestrictedConfig、ThanosRulerConfig
| 属性 | 类型 | 描述 |
|---|---|---|
| apiVersion | 字符串 |
定义 Alertmanager 的 API 版本。可能的值有 |
| bearerToken | *v1.SecretKeySelector | 定义包含 Alertmanager 身份验证时要使用的 bearer 令牌的 secret 密钥引用。 |
| pathPrefix | 字符串 | 定义要在推送端点路径前面添加的路径前缀。 |
| scheme | 字符串 |
定义与 Alertmanager 实例通信时要使用的 URL 方案。可能的值有 |
| staticConfigs | []string |
以 |
| timeout | *string | 定义发送警报时使用的超时值。 |
| tlsConfig | 定义用于 Alertmanager 连接的 TLS 设置。 |
14.3. AlertmanagerMainConfig
14.3.1. 描述
AlertmanagerMainConfig 资源定义 openshift-monitoring 命名空间中的 Alertmanager 组件的设置。
出现在:ClusterMonitoringConfiguration
| 属性 | 类型 | 描述 |
|---|---|---|
| enabled | *bool |
此布尔值标志,用于启用或禁用 |
| enableUserAlertmanagerConfig | bool |
一个布尔值标志,用于启用或禁用要用于 |
| logLevel | 字符串 |
定义 Alertmanager 的日志级别设置。可能的值有: |
| nodeSelector | map[string]string | 定义 Pod 被调度到的节点。 |
| 资源 | *v1.ResourceRequirements | 为 Alertmanager 容器定义资源请求和限值。 |
| secrets | []string |
定义要挂载到 Alertmanager 中的 secret 列表。secret 必须位于与 Alertmanager 对象相同的命名空间中。它们作为名为 |
| 容限(tolerations) | []v1.Toleration | 为 pod 定义容限。 |
| topologySpreadConstraints | []v1.TopologySpreadConstraint | 定义 pod 的拓扑分布约束。 |
| volumeClaimTemplate | *monv1.EmbeddedPersistentVolumeClaim | 为 Alertmanager 定义持久性存储。使用这个设置配置持久性卷声明,包括存储类、卷大小和名称。 |
14.4. AlertmanagerUserWorkloadConfig
14.4.1. 描述
AlertmanagerUserWorkloadConfig 资源定义用于用户定义的项目的 Alertmanager 实例的设置。
出现在: UserWorkloadConfiguration
| 属性 | 类型 | 描述 |
|---|---|---|
| enabled | bool |
此布尔值标志,用于启用或禁用 |
| enableAlertmanagerConfig | bool |
为 |
| logLevel | 字符串 |
定义 Alertmanager 用户工作负载监控的日志级别设置。可能的值有 |
| 资源 | *v1.ResourceRequirements | 为 Alertmanager 容器定义资源请求和限值。 |
| secrets | []string |
定义要挂载到 Alertmanager 中的 secret 列表。secret 必须位于与 Alertmanager 对象相同的命名空间中。它们作为名为 |
| nodeSelector | map[string]string | 定义在其上调度 pod 的节点。 |
| 容限(tolerations) | []v1.Toleration | 为 pod 定义容限。 |
| volumeClaimTemplate | *monv1.EmbeddedPersistentVolumeClaim | 为 Alertmanager 定义持久性存储。使用这个设置配置持久性卷声明,包括存储类、卷大小和名称。 |
14.5. ClusterMonitoringConfiguration
14.5.1. 描述
ClusterMonitoringConfiguration 资源定义通过 openshift-monitoring 命名空间中的 cluster-monitoring-config 配置映射自定义默认平台监控堆栈的设置。
| 属性 | 类型 | 描述 |
|---|---|---|
| alertmanagerMain |
| |
| enableUserWorkload | *bool |
|
| k8sPrometheusAdapter |
| |
| kubeStateMetrics |
| |
| prometheusK8s |
| |
| prometheusOperator |
| |
| openshiftStateMetrics |
| |
| telemeterClient |
| |
| thanosQuerier |
| |
| nodeExporter |
|
14.6. DedicatedServiceMonitors
14.6.1. 描述
您可以使用 DedicatedServiceMonitors 资源为 Prometheus Adapter 配置专用 Service Monitors
| 属性 | 类型 | 描述 |
|---|---|---|
| enabled | bool |
当 |
14.7. K8sPrometheusAdapter
14.7.1. 描述
K8sPrometheusAdapter 资源定义 Prometheus Adapter 组件的设置。
出现在:ClusterMonitoringConfiguration
| 属性 | 类型 | 描述 |
|---|---|---|
| audit | *Audit |
定义 Prometheus Adapter 实例使用的审计配置。可能的配置集值有: |
| nodeSelector | map[string]string | 定义在其上调度 pod 的节点。 |
| 容限(tolerations) | []v1.Toleration | 为 pod 定义容限。 |
| dedicatedServiceMonitors | 定义专用服务监控器。 |
14.8. KubeStateMetricsConfig
14.8.1. 描述
KubeStateMetricsConfig 资源定义 kube-state-metrics 代理的设置。
出现在:ClusterMonitoringConfiguration
| 属性 | 类型 | 描述 |
|---|---|---|
| nodeSelector | map[string]string | 定义在其上调度 pod 的节点。 |
| 容限(tolerations) | []v1.Toleration | 为 pod 定义容限。 |
14.9. NodeExporterCollectorBuddyInfoConfig
14.9.1. 描述
NodeExporterCollectorBuddyInfoConfig 资源充当 node-exporter 代理的 buddyinfo 收集器的 on/off 开关。默认情况下,buddyinfo 收集器被禁用。
出现在:NodeExporterCollectorConfig
| 属性 | 类型 | 描述 |
|---|---|---|
| enabled | bool |
启用或禁用 |
14.10. NodeExporterCollectorConfig
14.10.1. 描述
NodeExporterCollectorConfig 资源定义 node-exporter 代理的独立收集器的设置。
| 属性 | 类型 | 描述 |
|---|---|---|
| cpufreq |
定义 | |
| tcpstat |
定义 | |
| netdev |
定义 | |
| netclass |
定义 | |
| buddyinfo |
定义 |
14.11. NodeExporterCollectorCpufreqConfig
14.11.1. 描述
NodeExporterCollectorCpufreqConfig 资源充当 node-exporter 代理的 cpufreq 收集器的 on/off 开关。默认情况下禁用 cpufreq 收集器。在某些情况下,启用 cpufreq 收集器会增加具有许多内核的机器上的 CPU 用量。如果您启用此收集器并具有许多内核的机器,请密切监控您的系统以了解过量 CPU 用量。
出现在:NodeExporterCollectorConfig
| 属性 | 类型 | 描述 |
|---|---|---|
| enabled | bool |
启用或禁用 |
14.12. NodeExporterCollectorNetClassConfig
14.12.1. 描述
NodeExporterCollectorNetClassConfig 资源充当 node-exporter 代理的 netclass 收集器的 on/off 开关。默认情况下启用 netclass 收集器。如果禁用,这些指标数据将不可用:node_network_info, node_network_address_assign_type, node_network_carrier, node_network_carrier_changes_total, node_network_carrier_up_changes_total, node_network_carrier_down_changes_total, node_network_device_id, node_network_dormant, node_network_flags, node_network_iface_id, node_network_iface_link, node_network_iface_link_mode, node_network_mtu_bytes, node_network_name_assign_type, node_network_net_dev_group, node_network_speed_bytes, node_network_transmit_queue_length, node_network_protocol_type.
出现在:NodeExporterCollectorConfig
| 属性 | 类型 | 描述 |
|---|---|---|
| enabled | bool |
启用或禁用 |
| useNetlink | bool |
激活 |
14.13. NodeExporterCollectorNetDevConfig
14.13.1. 描述
NodeExporterCollectorNetDevConfig 资源充当 node-exporter 代理的 netdev 收集器的 on/off 开关。默认情况下启用 netdev 收集器。如果禁用,这些指标将不可用:node_network_receive_bytes_total, node_network_receive_compressed_total, node_network_receive_drop_total, node_network_receive_errs_total, node_network_receive_fifo_total, node_network_receive_frame_total, node_network_receive_multicast_total, node_network_receive_nohandler_total, node_network_receive_packets_total, node_network_transmit_bytes_total, node_network_transmit_carrier_total, node_network_transmit_colls_total, node_network_transmit_compressed_total, node_network_transmit_drop_total, node_network_transmit_errs_total, node_network_transmit_fifo_total, node_network_transmit_packets_total.
出现在:NodeExporterCollectorConfig
| 属性 | 类型 | 描述 |
|---|---|---|
| enabled | bool |
启用或禁用 |
14.14. NodeExporterCollectorTcpStatConfig
14.14.1. 描述
NodeExporterCollectorTcpStatConfig 资源充当 node-exporter 代理的 tcpstat 收集器的 on/off 开关。默认情况下,tcpstat 收集器被禁用。
出现在:NodeExporterCollectorConfig
| 属性 | 类型 | 描述 |
|---|---|---|
| enabled | bool |
启用或禁用 |
14.15. NodeExporterConfig
14.15.1. 描述
NodeExporterConfig 资源定义 node-exporter 代理的设置。
出现在:ClusterMonitoringConfiguration
| 属性 | 类型 | 描述 |
|---|---|---|
| 收集器 | 定义启用哪些收集器及其额外的配置参数。 |
14.16. OpenShiftStateMetricsConfig
14.16.1. 描述
OpenShiftStateMetricsConfig 资源定义 openshift-state-metrics 代理的设置。
出现在:ClusterMonitoringConfiguration
| 属性 | 类型 | 描述 |
|---|---|---|
| nodeSelector | map[string]string | 定义在其上调度 pod 的节点。 |
| 容限(tolerations) | []v1.Toleration | 为 pod 定义容限。 |
14.17. PrometheusK8sConfig
14.17.1. 描述
PrometheusK8sConfig 资源定义 Prometheus 组件的设置。
出现在:ClusterMonitoringConfiguration
| 属性 | 类型 | 描述 |
|---|---|---|
| additionalAlertmanagerConfigs | 配置额外的 Alertmanager 实例,从 Prometheus 组件接收警报。默认情况下,没有配置额外的 Alertmanager 实例。 | |
| enforcedBodySizeLimit | 字符串 |
为 Prometheus 提取的指标强制实施正文大小限制。如果提取的目标正文响应大于限制,则提取将失败。以下值是有效的:一个空值,用于指定没有限制、以 Prometheus 大小格式(如 |
| externalLabels | map[string]string | 定义在与外部系统通信时要添加到任何时间序列或警报的标签,如联邦、远程存储和 Alertmanager。默认情况下不会添加任何标签。 |
| logLevel | 字符串 |
定义 Prometheus 的日志级别设置。可能的值有: |
| nodeSelector | map[string]string | 定义在其上调度 pod 的节点。 |
| queryLogFile | 字符串 |
指定记录 PromQL 查询的文件。此设置可以是文件名,在这种情况下,查询被保存到位于 |
| remoteWrite | 定义远程写入配置,包括 URL、身份验证和重新标记设置。 | |
| 资源 | *v1.ResourceRequirements | 为 Prometheus 容器定义资源请求和限值。 |
| 保留 | 字符串 |
定义 Prometheus 保留数据的持续时间。这个定义必须使用以下正则表达式模式指定: |
| retentionSize | 字符串 |
定义数据块使用的最大磁盘空间量加上 write-ahead log (WAL)。支持的值包括 |
| 容限(tolerations) | []v1.Toleration | 为 pod 定义容限。 |
| topologySpreadConstraints | []v1.TopologySpreadConstraint | 定义 pod 的拓扑分布限制。 |
| collectionProfile | CollectionProfile |
定义 Prometheus 用来从平台组件收集指标的指标集合配置集。支持的值是 |
| volumeClaimTemplate | *monv1.EmbeddedPersistentVolumeClaim | 为 Prometheus 定义持久性存储。使用这个设置配置持久性卷声明,包括存储类、卷大小和名称。 |
14.18. PrometheusOperatorConfig
14.18.1. 描述
PrometheusOperatorConfig 资源定义 Prometheus Operator 组件的设置。
出现在:ClusterMonitoringConfiguration,UserWorkloadConfiguration
| 属性 | 类型 | 描述 |
|---|---|---|
| logLevel | 字符串 |
定义 Prometheus Operator 的日志级别设置。可能的值有 |
| nodeSelector | map[string]string | 定义在其上调度 pod 的节点。 |
| 容限(tolerations) | []v1.Toleration | 为 pod 定义容限。 |
14.19. PrometheusRestrictedConfig
14.19.1. 描述
PrometheusRestrictedConfig 资源定义监控用户定义的项目的 Prometheus 组件的设置。
出现在: UserWorkloadConfiguration
| 属性 | 类型 | 描述 |
|---|---|---|
| additionalAlertmanagerConfigs | 配置额外的 Alertmanager 实例,从 Prometheus 组件接收警报。默认情况下,没有配置额外的 Alertmanager 实例。 | |
| enforcedLabelLimit | *uint64 |
指定示例可接受的标签数的 per-scrape 限制。如果标签数量在指标重新标记后超过这个限制,则整个提取将被视为失败。默认值为 |
| enforcedLabelNameLengthLimit | *uint64 |
为示例指定标签名称长度的 per-scrape 限制。如果标签名称的长度在指标重新标记后超过这个限制,则整个提取将被视为失败。默认值为 |
| enforcedLabelValueLengthLimit | *uint64 |
为示例指定标签值长度的 per-scrape 限值。如果标签值的长度在指标重新标记后超过这个限制,则整个提取将被视为失败。默认值为 |
| enforcedSampleLimit | *uint64 |
指定一个接受的提取示例数量的全局限制。如果值大于 |
| enforcedTargetLimit | *uint64 |
指定提取目标数量的全局限制。如果值大于 |
| externalLabels | map[string]string | 定义在与外部系统通信时要添加到任何时间序列或警报的标签,如联邦、远程存储和 Alertmanager。默认情况下不会添加任何标签。 |
| logLevel | 字符串 |
定义 Prometheus 的日志级别设置。可能的值有 |
| nodeSelector | map[string]string | 定义在其上调度 pod 的节点。 |
| queryLogFile | 字符串 |
指定记录 PromQL 查询的文件。此设置可以是文件名,在这种情况下,查询被保存到位于 |
| remoteWrite | 定义远程写入配置,包括 URL、身份验证和重新标记设置。 | |
| 资源 | *v1.ResourceRequirements | 为 Prometheus 容器定义资源请求和限值。 |
| 保留 | 字符串 |
定义 Prometheus 保留数据的持续时间。这个定义必须使用以下正则表达式模式指定: |
| retentionSize | 字符串 |
定义数据块使用的最大磁盘空间量加上 write-ahead log (WAL)。支持的值包括 |
| 容限(tolerations) | []v1.Toleration | 为 pod 定义容限。 |
| volumeClaimTemplate | *monv1.EmbeddedPersistentVolumeClaim | 为 Prometheus 定义持久性存储。使用此设置配置卷的存储类和大小。 |
14.20. RemoteWriteSpec
14.20.1. 描述
RemoteWriteSpec 资源定义远程写入存储的设置。
14.20.2. 必需
-
url
会出现在: PrometheusK8sConfig、PrometheusRestrictedConfig
| 属性 | 类型 | 描述 |
|---|---|---|
| 授权 | *monv1.SafeAuthorization | 定义远程写入存储的授权设置。 |
| basicAuth | *monv1.BasicAuth | 定义远程写入端点 URL 的基本身份验证设置。 |
| bearerTokenFile | 字符串 | 定义包含远程写入端点的 bearer 令牌的文件。但是,因为您无法在 pod 中挂载 secret,所以在实践中,您只能引用服务帐户的令牌。 |
| 标头 | map[string]string | 指定要随每个远程写入请求一起发送的自定义 HTTP 标头。Prometheus 设置的标头不能被覆盖。 |
| metadataConfig | *monv1.MetadataConfig | 定义向远程写入存储发送一系列元数据的设置。 |
| name | 字符串 | 定义远程写入队列的名称。此名称用于指标和日志记录来区分队列。如果指定,此名称必须是唯一的。 |
| oauth2 | *monv1.OAuth2 | 定义远程写入端点的 OAuth2 身份验证设置。 |
| proxyUrl | 字符串 | 定义可选的代理 URL。 |
| queueConfig | *monv1.QueueConfig | 允许针对远程写入队列参数调整配置。 |
| remoteTimeout | 字符串 | 定义对远程写入端点的请求的超时值。 |
| sigv4 | *monv1.Sigv4 | 定义 AWS 签名版本 4 身份验证设置。 |
| tlsConfig | *monv1.SafeTLSConfig | 定义远程写入端点的 TLS 身份验证设置。 |
| url | 字符串 | 定义要向其发送示例的远程写入端点的 URL。 |
| writeRelabelConfigs | []monv1.RelabelConfig | 定义远程写入重新标记配置的列表。 |
14.21. TLSConfig
14.21.1. 描述
TLSConfig 资源配置 TLS 连接的设置。
14.21.2. 必需
-
insecureSkipVerify
出现在: AdditionalAlertmanagerConfig
| 属性 | 类型 | 描述 |
|---|---|---|
| ca | *v1.SecretKeySelector | 定义包含用于远程主机的证书颁发机构 (CA) 的 secret 密钥引用。 |
| cert | *v1.SecretKeySelector | 定义包含用于远程主机的公共证书的 secret 密钥引用。 |
| key | *v1.SecretKeySelector | 定义包含用于远程主机的私钥的 secret 密钥引用。 |
| serverName | 字符串 | 用于验证返回的证书主机名。 |
| insecureSkipVerify | bool |
当设置为 |
14.22. TelemeterClientConfig
14.22.1. 描述
TelemeterClientConfig 为 Telemeter Client 组件定义设置。
14.22.2. 必需
-
nodeSelector -
容限(tolerations)
出现在:ClusterMonitoringConfiguration
| 属性 | 类型 | 描述 |
|---|---|---|
| nodeSelector | map[string]string | 定义在其上调度 pod 的节点。 |
| 容限(tolerations) | []v1.Toleration | 为 pod 定义容限。 |
14.23. ThanosQuerierConfig
14.23.1. 描述
ThanosQuerierConfig 资源定义 Thanos Querier 组件的设置。
出现在:ClusterMonitoringConfiguration
| 属性 | 类型 | 描述 |
|---|---|---|
| enableRequestLogging | bool |
启用或禁用请求日志记录的布尔值标志。默认值为 |
| logLevel | 字符串 |
定义 Thanos Querier 的日志级别设置。可能的值有 |
| nodeSelector | map[string]string | 定义在其上调度 pod 的节点。 |
| 资源 | *v1.ResourceRequirements | 为 Thanos Querier 容器定义资源请求和限值。 |
| 容限(tolerations) | []v1.Toleration | 为 pod 定义容限。 |
14.24. ThanosRulerConfig
14.24.1. 描述
ThanosRulerConfig 资源定义面向用户定义的项目的 Thanos Ruler 实例的配置。
出现在: UserWorkloadConfiguration
| 属性 | 类型 | 描述 |
|---|---|---|
| additionalAlertmanagerConfigs |
配置 Thanos Ruler 组件如何与其他 Alertmanager 实例通信。默认值为 | |
| logLevel | 字符串 |
定义 Thanos Ruler 的日志级别设置。可能的值有 |
| nodeSelector | map[string]string | 定义 Pod 被调度到的节点。 |
| 资源 | *v1.ResourceRequirements | 为 Alertmanager 容器定义资源请求和限值。 |
| 保留 | 字符串 |
定义 Prometheus 保留数据的持续时间。这个定义必须使用以下正则表达式模式指定: |
| 容限(tolerations) | []v1.Toleration | 为 pod 定义容限。 |
| topologySpreadConstraints | []v1.TopologySpreadConstraint | 为 pod 定义拓扑分布限制。 |
| volumeClaimTemplate | *monv1.EmbeddedPersistentVolumeClaim | 为 Thanos Ruler 定义持久性存储。使用此设置配置卷的存储类和大小。 |
14.25. UserWorkloadConfiguration
14.25.1. 描述
UserWorkloadConfiguration 资源定义了在 openshift-user-workload-monitoring 命名空间中的 user-workload-monitoring-config 配置映射中的用于定义的项目的设置。只有在 openshift-monitoring 命名空间内的 cluster-monitoring-config 配置映射中的 enableUserWorkload 设置被为 true 后,您才可以启用 UserWorkloadConfiguration。
| 属性 | 类型 | 描述 |
|---|---|---|
| alertmanager | 在用户工作负载监控中定义 Alertmanager 组件的设置。 | |
| prometheus | 在用户工作负载监控中定义 Prometheus 组件的设置。 | |
| prometheusOperator | 在用户工作负载监控中定义 Prometheus Operator 组件的设置。 | |
| thanosRuler | 在用户工作负载监控中定义 Thanos Ruler 组件的设置。 |