Jump To Close Expand all Collapse all Table of contents 监控 1. 监控概述 Expand section "1. 监控概述" Collapse section "1. 监控概述" 1.1. 关于 OpenShift Container Platform 监控 1.2. 了解监控堆栈 Expand section "1.2. 了解监控堆栈" Collapse section "1.2. 了解监控堆栈" 1.2.1. 默认监控组件 1.2.2. 默认监控目标 1.2.3. 用于监控用户定义的项目的组件 1.2.4. 用户定义的项目的监控目标 1.3. OpenShift Container Platform 监控的常见术语表 1.4. 其他资源 1.5. 后续步骤 2. 配置监控堆栈 Expand section "2. 配置监控堆栈" Collapse section "2. 配置监控堆栈" 2.1. 先决条件 2.2. 对监控的维护和支持 Expand section "2.2. 对监控的维护和支持" Collapse section "2.2. 对监控的维护和支持" 2.2.1. 对监控的支持注意事项 2.2.2. 监控 Operator 的支持策略 2.3. 准备配置监控堆栈 Expand section "2.3. 准备配置监控堆栈" Collapse section "2.3. 准备配置监控堆栈" 2.3.1. 创建集群监控配置映射 2.3.2. 创建用户定义的工作负载监控配置映射 2.4. 配置监控堆栈 2.5. 可配置的监控组件 2.6. 使用节点选择器移动监控组件 Expand section "2.6. 使用节点选择器移动监控组件" Collapse section "2.6. 使用节点选择器移动监控组件" 2.6.1. 节点选择器与其他约束一起使用 2.6.2. 将监控组件移到其他节点 2.7. 为监控组件分配容忍(tolerations) 2.8. 为指标提取设置正文大小限制 2.9. 配置持久性存储 Expand section "2.9. 配置持久性存储" Collapse section "2.9. 配置持久性存储" 2.9.1. 持久性存储的先决条件 2.9.2. 配置本地持久性卷声明 2.9.3. 重新定义持久性存储卷的大小 2.9.4. 修改 Prometheus 指标数据的保留时间和大小 2.9.5. 修改 Thanos Ruler 指标数据的保留时间 2.10. 配置远程写入存储 Expand section "2.10. 配置远程写入存储" Collapse section "2.10. 配置远程写入存储" 2.10.1. 支持的远程写入身份验证设置 Expand section "2.10.1. 支持的远程写入身份验证设置" Collapse section "2.10.1. 支持的远程写入身份验证设置" 2.10.1.1. 身份验证设置的配置映射位置 2.10.1.2. 远程写入身份验证设置示例 2.11. 在指标中添加集群 ID 标签 Expand section "2.11. 在指标中添加集群 ID 标签" Collapse section "2.11. 在指标中添加集群 ID 标签" 2.11.1. 为指标创建集群 ID 标签 2.12. 控制用户定义的项目中未绑定指标属性的影响 Expand section "2.12. 控制用户定义的项目中未绑定指标属性的影响" Collapse section "2.12. 控制用户定义的项目中未绑定指标属性的影响" 2.12.1. 为用户定义的项目设置提取示例和标签限制 2.12.2. 创建提取示例警报 3. 配置外部 alertmanager 实例 Expand section "3. 配置外部 alertmanager 实例" Collapse section "3. 配置外部 alertmanager 实例" 3.1. 在时间序列和警报中附加额外标签 4. 为监控配置 pod 拓扑分布限制 Expand section "4. 为监控配置 pod 拓扑分布限制" Collapse section "4. 为监控配置 pod 拓扑分布限制" 4.1. 为 Prometheus 设置 pod 拓扑分布限制 4.2. 为 Alertmanager 设置 pod 拓扑分布限制 4.3. 为 Thanos Ruler 设置 pod 拓扑分布限制 4.4. 为监控组件设置日志级别 4.5. 为 Prometheus 启用查询日志文件 4.6. 为 Thanos Querier 启用查询日志记录 5. 为 Prometheus Adapter 设置审计日志级别 Expand section "5. 为 Prometheus Adapter 设置审计日志级别" Collapse section "5. 为 Prometheus Adapter 设置审计日志级别" 5.1. 禁用本地 Alertmanager 5.2. 后续步骤 6. 为用户定义的项目启用监控 Expand section "6. 为用户定义的项目启用监控" Collapse section "6. 为用户定义的项目启用监控" 6.1. 为用户定义的项目启用监控 6.2. 授予用户权限来监控用户定义的项目 Expand section "6.2. 授予用户权限来监控用户定义的项目" Collapse section "6.2. 授予用户权限来监控用户定义的项目" 6.2.1. 使用 Web 控制台授予用户权限 6.2.2. 使用 CLI 授予用户权限 6.3. 授予用户权限来为用户定义的项目配置监控 6.4. 从集群外部访问自定义应用程序的指标 6.5. 将用户定义的项目从监控中排除 6.6. 为用户定义的项目禁用监控 6.7. 后续步骤 7. 为用户定义的项目启用警报路由 Expand section "7. 为用户定义的项目启用警报路由" Collapse section "7. 为用户定义的项目启用警报路由" 7.1. 了解用户定义的项目的警报路由 7.2. 为用户定义的警报路由启用平台 Alertmanager 实例 7.3. 为用户定义的警报路由启用一个单独的 Alertmanager 实例 7.4. 授予用户权限来为用户定义的项目配置警报路由 7.5. 后续步骤 8. 管理指标 Expand section "8. 管理指标" Collapse section "8. 管理指标" 8.1. 了解指标 8.2. 为用户定义的项目设置指标集合 Expand section "8.2. 为用户定义的项目设置指标集合" Collapse section "8.2. 为用户定义的项目设置指标集合" 8.2.1. 部署示例服务 8.2.2. 指定如何监控服务 8.3. 查看可用指标列表 8.4. 后续步骤 9. 查询指标 Expand section "9. 查询指标" Collapse section "9. 查询指标" 9.1. 关于查询指标 Expand section "9.1. 关于查询指标" Collapse section "9.1. 关于查询指标" 9.1.1. 以集群管理员身份查询所有项目的指标 9.1.2. 以开发者身份查询用户定义的项目的指标 9.1.3. 探索视觉化指标 9.2. 后续步骤 10. 管理指标目标 Expand section "10. 管理指标目标" Collapse section "10. 管理指标目标" 10.1. 在 Administrator 视角中访问 Metrics Targets 页面 10.2. 搜索和过滤指标目标 10.3. 获取目标的详细信息 10.4. 后续步骤 11. 管理警报 Expand section "11. 管理警报" Collapse section "11. 管理警报" 11.1. 在 Administrator 和 Developer 视角中访问 Alerting UI 11.2. 搜索和过滤警报、静默和警报规则 11.3. 获取关于警报、静默和警报规则的信息 11.4. 管理静默 Expand section "11.4. 管理静默" Collapse section "11.4. 管理静默" 11.4.1. 静默警报 11.4.2. 编辑静默 11.4.3. 使静默到期 11.5. 为用户定义的项目管理警报规则 Expand section "11.5. 为用户定义的项目管理警报规则" Collapse section "11.5. 为用户定义的项目管理警报规则" 11.5.1. 为用户定义的项目优化警报 11.5.2. 为用户定义的项目创建警报规则 11.5.3. 减少不查询平台指标的警报规则的延迟 11.5.4. 访问用户定义的项目的警报规则 11.5.5. 在单个视图中列出所有项目的警报规则 11.5.6. 为用户定义的项目删除警报规则 11.6. 管理用于核心平台监控的警报规则 Expand section "11.6. 管理用于核心平台监控的警报规则" Collapse section "11.6. 管理用于核心平台监控的警报规则" 11.6.1. 修改核心平台警报规则 11.6.2. 创建新警报规则 11.7. 将通知发送到外部系统 Expand section "11.7. 将通知发送到外部系统" Collapse section "11.7. 将通知发送到外部系统" 11.7.1. 配置警报接收器 11.7.2. 为用户定义的项目创建警报路由 11.8. 应用自定义 Alertmanager 配置 11.9. 将自定义配置应用到 Alertmanager 以进行用户定义的警报路由 11.10. 后续步骤 12. 查看监控仪表板 Expand section "12. 查看监控仪表板" Collapse section "12. 查看监控仪表板" 12.1. 以集群管理员身份查看监控仪表板 12.2. 以开发者身份查看监控仪表板 12.3. 后续步骤 13. NVIDIA GPU 管理仪表板 Expand section "13. NVIDIA GPU 管理仪表板" Collapse section "13. NVIDIA GPU 管理仪表板" 13.1. 简介 13.2. 安装 NVIDIA GPU 管理仪表板 13.3. 使用 NVIDIA GPU 管理仪表板 Expand section "13.3. 使用 NVIDIA GPU 管理仪表板" Collapse section "13.3. 使用 NVIDIA GPU 管理仪表板" 13.3.1. 查看集群 GPU 概述 13.3.2. 查看 GPU 仪表板 13.3.3. 查看 GPU 指标 14. 使用 Bare Metal Event Relay 监控裸机事件 Expand section "14. 使用 Bare Metal Event Relay 监控裸机事件" Collapse section "14. 使用 Bare Metal Event Relay 监控裸机事件" 14.1. 关于裸机事件 14.2. 裸机事件的工作方式 Expand section "14.2. 裸机事件的工作方式" Collapse section "14.2. 裸机事件的工作方式" 14.2.1. 裸机事件中继数据流 Expand section "14.2.1. 裸机事件中继数据流" Collapse section "14.2.1. 裸机事件中继数据流" 14.2.1.1. Operator 管理的 pod 14.2.1.2. 裸机事件中继 14.2.1.3. 云原生事件 14.2.1.4. CNCF CloudEvents 14.2.1.5. AMQP 分配路由器 14.2.1.6. 云事件代理 sidecar 14.2.2. Redfish 消息解析服务 14.2.3. 使用 CLI 安装裸机事件中继 14.2.4. 使用 Web 控制台安装 Bare Metal Event Relay 14.3. 安装 AMQ 消息传递总线 14.4. 订阅集群节点的 Redfish BMC 裸机事件 Expand section "14.4. 订阅集群节点的 Redfish BMC 裸机事件" Collapse section "14.4. 订阅集群节点的 Redfish BMC 裸机事件" 14.4.1. 订阅裸机事件 14.4.2. 使用 curl 查询 Redfish 裸机事件订阅 14.4.3. 创建裸机事件和 Secret CR 14.5. 将应用程序订阅到裸机事件 REST API 参考 15. 访问第三方的监控 API Expand section "15. 访问第三方的监控 API" Collapse section "15. 访问第三方的监控 API" 15.1. 访问第三方监控 Web 服务 API 15.2. 使用 Prometheus 的联邦端点查询指标 15.3. 其他资源 16. 监控问题的故障排除 Expand section "16. 监控问题的故障排除" Collapse section "16. 监控问题的故障排除" 16.1. 检查为什么用户定义的指标不可用 16.2. 确定为什么 Prometheus 消耗大量磁盘空间 17. Cluster Monitoring Operator 的配置映射引用 Expand section "17. Cluster Monitoring Operator 的配置映射引用" Collapse section "17. Cluster Monitoring Operator 的配置映射引用" 17.1. Cluster Monitoring Operator 配置参考 17.2. AdditionalAlertmanagerConfig Expand section "17.2. AdditionalAlertmanagerConfig" Collapse section "17.2. AdditionalAlertmanagerConfig" 17.2.1. Description 17.2.2. 必需 17.3. AlertmanagerMainConfig Expand section "17.3. AlertmanagerMainConfig" Collapse section "17.3. AlertmanagerMainConfig" 17.3.1. Description 17.4. AlertmanagerUserWorkloadConfig Expand section "17.4. AlertmanagerUserWorkloadConfig" Collapse section "17.4. AlertmanagerUserWorkloadConfig" 17.4.1. Description 17.5. ClusterMonitoringConfiguration Expand section "17.5. ClusterMonitoringConfiguration" Collapse section "17.5. ClusterMonitoringConfiguration" 17.5.1. Description 17.6. DedicatedServiceMonitors Expand section "17.6. DedicatedServiceMonitors" Collapse section "17.6. DedicatedServiceMonitors" 17.6.1. Description 17.7. K8sPrometheusAdapter Expand section "17.7. K8sPrometheusAdapter" Collapse section "17.7. K8sPrometheusAdapter" 17.7.1. Description 17.8. KubeStateMetricsConfig Expand section "17.8. KubeStateMetricsConfig" Collapse section "17.8. KubeStateMetricsConfig" 17.8.1. Description 17.9. OpenShiftStateMetricsConfig Expand section "17.9. OpenShiftStateMetricsConfig" Collapse section "17.9. OpenShiftStateMetricsConfig" 17.9.1. Description 17.10. PrometheusK8sConfig Expand section "17.10. PrometheusK8sConfig" Collapse section "17.10. PrometheusK8sConfig" 17.10.1. Description 17.11. PrometheusOperatorConfig Expand section "17.11. PrometheusOperatorConfig" Collapse section "17.11. PrometheusOperatorConfig" 17.11.1. Description 17.12. PrometheusRestrictedConfig Expand section "17.12. PrometheusRestrictedConfig" Collapse section "17.12. PrometheusRestrictedConfig" 17.12.1. Description 17.13. RemoteWriteSpec Expand section "17.13. RemoteWriteSpec" Collapse section "17.13. RemoteWriteSpec" 17.13.1. Description 17.13.2. 必需 17.14. TelemeterClientConfig Expand section "17.14. TelemeterClientConfig" Collapse section "17.14. TelemeterClientConfig" 17.14.1. Description 17.14.2. 必需 17.15. ThanosQuerierConfig Expand section "17.15. ThanosQuerierConfig" Collapse section "17.15. ThanosQuerierConfig" 17.15.1. Description 17.16. ThanosRulerConfig Expand section "17.16. ThanosRulerConfig" Collapse section "17.16. ThanosRulerConfig" 17.16.1. Description 17.17. TLSConfig Expand section "17.17. TLSConfig" Collapse section "17.17. TLSConfig" 17.17.1. Description 17.17.2. 必需 17.18. UserWorkloadConfiguration Expand section "17.18. UserWorkloadConfiguration" Collapse section "17.18. UserWorkloadConfiguration" 17.18.1. Description 法律通告 Settings Close Language: 한국어 日本語 简体中文 English Français Language: 한국어 日本語 简体中文 English Français Format: Multi-page Single-page PDF Format: Multi-page Single-page PDF Language and Page Formatting Options Language: 한국어 日本語 简体中文 English Français Language: 한국어 日本語 简体中文 English Français Format: Multi-page Single-page PDF Format: Multi-page Single-page PDF 监控 OpenShift Container Platform 4.12在 OpenShift Container Platform 中配置和使用监控堆栈 Red Hat OpenShift Documentation Team法律通告摘要 本文提供有关在 OpenShift Container Platform 中配置和使用 Prometheus 监控堆栈的说明。 Next