8.7. 对 DistributedComputeHCI 状态进行故障排除

如果替换节点在 EtcdInitialClusterState 参数值没有设置为 existing 的情况下部署,则替换节点的 cinder-volume 服务会在运行 openstack volume service list 时显示 down

流程

  1. 登录到替换节点并检查 etcd 服务的日志。检查在 /var/log/containers/stdouts/etcd.log 日志文件中是否显示 etcd 服务报告了一个集群 ID 不匹配的问题。

    2022-04-06T18:00:11.834104130+00:00 stderr F 2022-04-06 18:00:11.834045 E | rafthttp: request cluster ID mismatch (got 654f4cf0e2cfb9fd want 918b459b36fe2c0c)
  2. EtcdInitialClusterState 参数设置为部署模板中 现有 值,并重新运行部署脚本。
  3. 使用 SSH 连接到替换节点,并以 root 用户身份运行以下命令:

    [root@dcn2-computehci2-4 ~]# systemctl stop tripleo_etcd
    [root@dcn2-computehci2-4 ~]# rm -rf /var/lib/etcd/*
    [root@dcn2-computehci2-4 ~]# systemctl start tripleo_etcd
  4. 重新检查 /var/log/containers/stdouts/etcd.log 日志文件,以验证节点是否成功加入集群:

    2022-04-06T18:24:22.130059875+00:00 stderr F 2022-04-06 18:24:22.129395 I | etcdserver/membership: added member 96f61470cd1839e5 [https://dcn2-computehci2-4.internalapi.redhat.local:2380] to cluster 654f4cf0e2cfb9fd
  5. 检查 cinder-volume 服务的状态,确定在运行 openstack volume service list 时它在替换节点上为 up