Menu Close

12.7. OpenShift Container Platform 集群监控、日志记录和遥测技术

OpenShift Container Platform 在集群层面提供各种监控资源。

12.7.1. 关于 OpenShift Container Platform 集群监控

OpenShift Container Platform 包括一个预配置、预安装且自助更新的监控堆栈,它基于 Prometheus 开源项目及其更广的生态系统。它提供对集群组件的监控,并且包含一组警报(在发生任何问题时立即通知集群管理员)以及一组 Grafana 仪表板。集群监控堆栈只支持监控 OpenShift Container Platform 集群。

重要

为确保与将来的 OpenShift Container Platform 更新兼容,只有特定的监控堆栈选项配置被支持。

12.7.2. 关于集群日志记录组件

集群日志记录组件包括在 OpenShift Container Platform 集群中部署到每个节点的收集器,用于收集所有节点和容器日志并将其写入日志存储。您可以使用集中 web UI 使用汇总的数据创建丰富的视觉化和仪表板。

集群日志记录的主要组件有:

  • collection(收集) - 此组件从集群中收集日志,格式化日志并将其转发到日志存储。当前的实现是 Fluentd。
  • log store(日志存储) - 存储日志的位置。默认是 Elasticsearch。您可以使用默认的 Elasticsearch 日志存储,或将日志转发到外部日志存储。默认日志存储经过优化并测试以进行简短存储。
  • visualization(可视化) - 此 UI 组件用于查看日志、图形和图表等。当前的实现是 Kibana。

有关集群日志记录的更多信息,请参阅 OpenShift Container Platform 集群日志文档。

12.7.3. 关于 Telemetry

Telemetry 会向红帽发送一组精选的集群监控指标子集。Telemeter 客户端每 4 分 30 秒获取一次指标值,并将数据上传到红帽。本文档中描述了这些指标。

红帽使用这一数据流来实时监控集群,必要时将对影响客户的问题做出反应。它同时还有助于红帽向客户推出 OpenShift Container Platform 升级,以便最大程度降低服务影响,持续改进升级体验。

这类调试信息将提供给红帽支持和工程团队,其访问限制等同于访问通过问题单报告的数据。红帽利用所有连接集群信息来帮助改进 OpenShift Container Platform,提高其易用性。

12.7.3.1. Telemetry 收集的信息

Telemetry 收集以下信息:

  • 安装期间生成的唯一随机标识符
  • 版本信息,包括 OpenShift Container Platform 集群版本并安装了用于决定更新版本可用性的更新详情
  • 更新信息,包括每个集群可用的更新数、用于更新的频道和镜像存储库、更新进度信息以及更新中发生的错误数
  • 部署 OpenShift Container Platform 的供应商平台的名称及数据中心位置
  • 有关集群、机器类型和机器的大小信息,包括 CPU 内核数和每个机器所使用的 RAM 量
  • 集群中正在运行的虚拟机实例的数量
  • etcd 成员数和存储在 etcd 集群中的对象数量
  • 在集群中安装的 OpenShift Container Platform 框架组件及其状况和状态
  • 有关组件、功能和扩展的使用情况信息
  • 有关技术预览和不受支持配置的使用详情
  • 有关降级软件的信息
  • 标记为 NotReady 的节点的信息
  • 为降级 Operator 列出为 "related objects" 的所有命名空间的事件
  • 帮助红帽支持为客户提供有用支持的配置详情。这包括云基础架构级别的节点配置、主机名、IP 地址、Kubernetes pod 名称、命名空间和服务。
  • 有关证书的有效性的信息

Telemetry 不会收集任何身份识别的信息,如用户名或密码。红帽不会收集个人信息。如果红帽发现个人信息被意外地收到,红帽会删除这些信息。有关红帽隐私实践的更多信息,请参考红帽隐私声明

12.7.4. CLI 故障排除和调试命令

如需 oc 客户端故障排除和调试命令列表,请参阅 OpenShift Container Platform CLI 工具文档。