1.4. 故障排除问题

集群管理员可以监控并排除以下 OpenShift Container Platform 组件问题:

  • 安装问题 :OpenShift Container Platform 安装可完成各种阶段。您可以执行以下操作:

    • 监控安装阶段。
    • 确定在哪个阶段安装问题发生。
    • 调查多个安装问题。
    • 从失败安装中收集日志。
  • 节点问题 :集群管理员可以通过查看节点的状态、资源使用量和配置来验证和排除节点相关问题。您可以查询以下内容:

    • 节点上的 kubelet 状态。
    • 集群节点日志.
  • Crio 问题 :集群管理员可在每个集群节点上验证 CRI-O 容器运行时引擎状态。如果遇到容器运行时问题,请执行以下操作:

    • 收集 CRI-O journald 单元日志。
    • 清理 CRI-O 存储。
  • 操作系统问题 :OpenShift Container Platform 在 Red Hat Enterprise Linux CoreOS 上运行。如果遇到操作系统问题,可以调查内核崩溃过程。确保以下内容:

    • 启用 kdump。
    • 测试 kdump 配置。
    • 分析内核转储。
  • 网络问题 :要对 Open vSwitch 问题进行故障排除,集群管理员可以执行以下操作:

    • 临时配置 Open vSwitch 日志级别。
    • 永久配置 Open vSwitch 日志级别。
    • 显示 Open vSwitch 日志。
  • Operator 问题 :集群管理员可以执行以下操作来解决 Operator 问题:

    • 验证 Operator 订阅状态。
    • 检查 Operator pod 健康状况。
    • 收集 Operator 日志。
  • Pod 问题 :集群管理员可以通过查看 pod 的状态并完成以下内容来排除与 pod 相关的问题:

    • 查看 pod 和容器日志。
    • 启动具有 root 访问权限的 debug pod。
  • Source-to-image 问题 :集群管理员可以观察 S2I 阶段,以确定 S2I 进程中的故障发生位置。收集以下内容来解决 Source-to-Image(S2I)问题:

    • Source-to-Image 诊断数据。
    • 用于调查应用程序故障的应用程序诊断数据。
  • 存储问题 :当无法在新节点中挂载卷时,会发生多附加存储错误,因为失败的节点无法卸载附加的卷。集群管理员可执行以下操作解决多附加存储问题:

    • 使用 RWX 卷启用多个附件。
    • 使用 RWO 卷时,恢复或删除故障节点。
  • 监控问题 :集群管理员可按照监控故障排除页面中的步骤进行操作。如果您的用户定义的项目的指标不可用,或者 Prometheus 消耗了大量磁盘空间,请检查以下内容:

    • 调查用户定义的指标不可用的原因。
    • 确定为什么 Prometheus 消耗大量磁盘空间。
  • 日志记录问题:集群管理员可以按照 OpenShift Logging 问题的故障排除页面上的步骤进行操作。检查以下内容以解决日志问题:

  • OpenShift CLI(oc)问题 :通过增加日志级别来判断 OpenShift CLI(oc)问题。