第 3 章 对自承载引擎进行故障排除

3.1. 对 Manager 虚拟机进行故障排除

过程 3.1. 对 Manager 虚拟机进行故障排除

  1. 运行 hosted-engine --vm-status 检查 Manager 虚拟机的状态。

    注意

    对 Manager 虚拟机所做的修改大约需要经过 20 秒后才会反映在状态命令的输出中。
    如果 Manager 虚拟机已启动并在运行,您将可以看到以下输出:
    --== Host 1 status ==--
    
    Status up-to-date              : True
    Hostname                       : hypervisor.example.com
    Host ID                        : 1
    Engine status                  : {"health": "good", "vm": "up", "detail": "up"}
    Score                          : 3400
    stopped                        : False
    Local maintenance              : False
    crc32                          : 99e57eba
    Host timestamp                 : 248542
  2. 如果 health 是“bad”或 vm 是“down”,启用全局维护模式使主机不再被 HA 服务管理。
    • 在管理门户中,在引擎虚拟机上点鼠标右键,选启动全局 HA 维护
    • 您也可以通过命令行设置维护模式:
      # hosted-engine --set-maintenance --mode=global
  3. 如果 Manager 虚拟机已关闭,启动 Manager 虚拟机。如果虚拟机已启动,跳过这一步。
    # hosted-engine ---vm-start
  4. 设置控制台密码:
    # hosted-engine --add-console-password
  5. 连接到控制台。在提示时输入前一步中设置的密码。如需了解更多与控制台选项相关的信息,请参阅 https://access.redhat.com/solutions/2221461
    # hosted-engine --console
  6. 找出 Manager 虚拟机关闭或处于一个“不健康状态”的原因。检查 /var/log/messages/var/log/ovirt-engine/engine.log。在解决了相关问题后,重新启动 Manager 虚拟机。
  7. 以 root 用户身份登录到 Manager 虚拟机,检查 ovirt-engine 已被启动并在运行:
    # service ovirt-engine status
  8. 在确认 Manager 虚拟机已启动并运行后,关闭控制台会话,禁用维护模式并重新启用 HA 服务:
    # hosted-engine --set-maintenance --mode=none

额外的故障排除命令:

重要

如果您需要运行这些命令来对自承载引擎进行故障排除,请联系红帽技术支持团队。
  • hosted-engine --reinitialize-lockspace:当 sanlock 的锁定空间出现问题时可以使用这个命令。在使用这个命令重新初始化 sanlock 锁定空间前,请确认已启用了全局维护模式, Manager 虚拟机已被停止。
  • hosted-engine --clean-metadata:从全局状态数据库中删除主机代理的元数据。这将会使其它所有主机都忘掉这个主机。请确认目标主机已被关闭,全局维护模式已启用。
  • hosted-engine --check-liveliness:这个命令用来检查 ovirt-engine 服务的活性(liveliness)页。您也可以通过使用一个网络浏览器连接到 https://engine-fqdn/ovirt-engine/services/health/ 进行检查。
  • hosted-engine --connect-storage:这个命令会指示 VDSM 准备主机和 Manager 虚拟机所需的所有存储连接。这通常在自承载引擎部署过程中在后端运行。如果需要运行这个命令来对存储进行故障排除,请确定已启用了全局维护模式。