Red Hat Training

A Red Hat training course is available for Red Hat OpenStack Platform

2.12. 验证 OpenStack Platform 10 overcloud

以下是一组步骤,用于在升级前检查 Red Hat OpenStack Platform 10 overcloud 的功能。

流程

  1. 查找 undercloud 访问详情:

    $ source ~/stackrc
  2. 检查裸机节点的状态:

    $ openstack baremetal node list

    所有节点均应具有有效的电源状态(on)和维护模式,应为 false

  3. 检查失败的 Systemd 服务:

    $ for NODE in $(openstack server list -f value -c Networks | cut -d= -f2); do echo "=== $NODE ===" ; ssh heat-admin@$NODE "sudo systemctl list-units --state=failed 'openstack*' 'neutron*' 'httpd' 'docker' 'ceph*'" ; done
  4. 检查与所有服务的 HAProxy 连接。获取 haproxy.stats 服务的 Control Plane VIP 地址和身份验证信息:

    $ NODE=$(openstack server list --name controller-0 -f value -c Networks | cut -d= -f2); ssh heat-admin@$NODE sudo 'grep "listen haproxy.stats" -A 6 /etc/haproxy/haproxy.cfg'
  5. 使用上一步中获取的连接和身份验证信息来检查 RHOSP 服务的连接状态。

    如果没有启用 SSL,请在以下 cURL 请求中使用这些详情:

    $ curl -s -u admin:<PASSWORD> "http://<IP ADDRESS>:1993/;csv" | egrep -vi "(frontend|backend)" | awk -F',' '{ print $1" "$2" "$18 }'

    如果启用了 SSL,则在以下 cURL 请求中使用这些详情:

    curl -s -u admin:<PASSWORD> "https://<HOSTNAME>:1993/;csv" | egrep -vi "(frontend|backend)" | awk -F',' '{ print $1" "$2" "$18 }'

    将 &lt ;PASSWORD& gt; 和 &lt ;IP ADDRESS > 或 <HOSTNAME > 值替换为 haproxy.stats 服务中的相应信息。生成的列表显示每个节点上的 OpenStack Platform 服务及其连接状态。

  6. 检查 overcloud 数据库复制健康状况:

    $ for NODE in $(openstack server list --name controller -f value -c Networks | cut -d= -f2); do echo "=== $NODE ===" ; ssh heat-admin@$NODE "sudo clustercheck" ; done
  7. 检查 RabbitMQ 集群健康状况:

    $ for NODE in $(openstack server list --name controller -f value -c Networks | cut -d= -f2); do echo "=== $NODE ===" ; ssh heat-admin@$NODE "sudo rabbitmqctl node_health_check" ; done
  8. 检查 Pacemaker 资源健康状况:

    $ NODE=$(openstack server list --name controller-0 -f value -c Networks | cut -d= -f2); ssh heat-admin@$NODE "sudo pcs status"

    查找:

    • 所有集群节点 在线
    • 任何集群节点上都没有 停止 资源。
    • 没有 失败的 pacemaker 操作。
  9. 检查每个 overcloud 节点上的磁盘空间:

    $ for NODE in $(openstack server list -f value -c Networks | cut -d= -f2); do echo "=== $NODE ===" ; ssh heat-admin@$NODE "sudo df -h --output=source,fstype,avail -x overlay -x tmpfs -x devtmpfs" ; done
  10. 检查 overcloud Ceph Storage 集群健康状态。以下命令在 Controller 节点上运行 ceph 工具来检查集群:

    $ NODE=$(openstack server list --name controller-0 -f value -c Networks | cut -d= -f2); ssh heat-admin@$NODE "sudo ceph -s"
  11. 检查 Ceph Storage OSD 是否有可用空间。以下命令在 Controller 节点上运行 ceph 工具来检查可用空间:

    $ NODE=$(openstack server list --name controller-0 -f value -c Networks | cut -d= -f2); ssh heat-admin@$NODE "sudo ceph df"
    重要

    每个 Ceph 对象存储守护进程(OSD)的 PG 数量不得超过 250 个。每个 OSD 有更多 PG 升级 Ceph 节点会导致警告状态,并可能导致升级过程失败。在开始升级过程前,您可以增加每个 OSD 的 PG 数量。有关诊断并排除这个问题的更多信息,请参阅 OpenStack FFU 从 10 到 13 超时,因为一个或多个 OSD 中分配的 Ceph PG 大于 250 个

  12. 检查时钟是否在 overcloud 节点上同步

    $ for NODE in $(openstack server list -f value -c Networks | cut -d= -f2); do echo "=== $NODE ===" ; ssh heat-admin@$NODE "sudo ntpstat" ; done
  13. 查找 overcloud 访问详情:

    $ source ~/overcloudrc
  14. 检查 overcloud 网络服务:

    $ openstack network agent list

    所有代理都应 处于活动状态,其状态应为 UP

  15. 检查 overcloud 计算服务:

    $ openstack compute service list

    所有代理的状态都应 为启用状态,其状态应为 up

  16. 检查 overcloud 卷服务:

    $ openstack volume service list

    所有代理的状态都应 为启用状态,其状态应为

相关信息