1.4. 故障排除问题

集群管理员可以监控并排除以下 OpenShift Container Platform 组件问题：

安装问题：OpenShift Container Platform 安装可完成各种阶段。您可以执行以下操作：
- 监控安装阶段。
- 确定在哪个阶段安装问题发生。
- 调查多个安装问题。
- 从失败安装中收集日志。
节点问题：集群管理员可以通过查看节点的状态、资源使用量和配置来验证和排除节点相关问题。您可以查询以下内容：
- 节点上的 kubelet 状态。
- 集群节点日志.
Crio 问题：集群管理员可在每个集群节点上验证 CRI-O 容器运行时引擎状态。如果遇到容器运行时问题，请执行以下操作：
- 收集 CRI-O journald 单元日志。
- 清理 CRI-O 存储。
操作系统问题：OpenShift Container Platform 在 Red Hat Enterprise Linux CoreOS 上运行。如果遇到操作系统问题，可以调查内核崩溃过程。确保以下内容：
- 启用 kdump。
- 测试 kdump 配置。
- 分析内核转储。
网络问题：要对 Open vSwitch 问题进行故障排除，集群管理员可以执行以下操作：
- 临时配置 Open vSwitch 日志级别。
- 永久配置 Open vSwitch 日志级别。
- 显示 Open vSwitch 日志。
Operator 问题：集群管理员可以执行以下操作来解决 Operator 问题：
- 验证 Operator 订阅状态。
- 检查 Operator pod 健康状况。
- 收集 Operator 日志。
Pod 问题：集群管理员可以通过查看 pod 的状态并完成以下内容来排除与 pod 相关的问题：
- 查看 pod 和容器日志。
- 启动具有 root 访问权限的 debug pod。
Source-to-image 问题：集群管理员可以观察 S2I 阶段，以确定 S2I 进程中的故障发生位置。收集以下内容来解决 Source-to-Image(S2I)问题：
- Source-to-Image 诊断数据。
- 用于调查应用程序故障的应用程序诊断数据。
存储问题：当无法在新节点中挂载卷时，会发生多附加存储错误，因为失败的节点无法卸载附加的卷。集群管理员可执行以下操作解决多附加存储问题：
- 使用 RWX 卷启用多个附件。
- 使用 RWO 卷时,恢复或删除故障节点。
监控问题：集群管理员可按照监控故障排除页面中的步骤进行操作。如果您的用户定义的项目的指标不可用，或者 Prometheus 消耗了大量磁盘空间，请检查以下内容：
- 调查用户定义的指标不可用的原因。
- 确定为什么 Prometheus 消耗大量磁盘空间。
日志记录问题：集群管理员可以按照 OpenShift Logging 问题的故障排除页面上的步骤进行操作。检查以下内容以解决日志问题：
OpenShift CLI(oc)问题：通过增加日志级别来判断 OpenShift CLI(oc)问题。

Select Your Language

1.4. 故障排除问题

Quick Links

Help

Site Info

Related Sites

About

Red Hat legal and privacy links

Red Hat legal and privacy links

Language and Page Formatting Options

1.4. 故障排除问题

Quick Links

Help

Site Info

Related Sites

Systems Status

About

Red Hat legal and privacy links

Red Hat legal and privacy links