第 1 章 Regional-DR 介绍

灾难恢复是从自然或人为的灾难中恢复并继续业务关键应用程序的能力。它是任何主要组织的整体业务连续性战略,旨在在重大危险事件期间保持业务运营的连续性。

Regional-DR(区域 DR) 功能在地理分散的网站之间提供卷持久数据和元数据复制。在公共云中,它们类似于防止区域故障。区域 DR 可以在一个地理区域出现问题时确保业务的连续性(在可以接受一些可预测数量的数据丢失的情况下)。这通常通过 Recovery Point Objective (RPO) 和 Recovery Time Objective (RTO) 代表。

  • RPO 是一种衡量持久性数据备份或快照的频率。实际上,RPO 表示在中断后将丢失或需要重新输入的数据量。
  • RTO 是企业可以容忍的停机时间。RTO 回答了这个问题,"在收到业务中断通知后,我们的系统需要多久才能恢复?"

本指南旨在详细介绍配置基础架构以启用灾难恢复所需的步骤和命令。

1.1. 区域 DR 解决方案的组件

region-DR 由 Red Hat Advanced Cluster Management for Kubernetes(RHACM)和 OpenShift Data Foundation 组件组成,以便在 OpenShift Container Platform 集群中提供应用程序和数据移动性。

Red Hat Advanced Cluster Management for Kubernetes

Red Hat Advanced Cluster Management 提供了管理多个集群和应用程序生命周期的功能。因此,它充当多集群环境中的控制平面。

RHACM 分为两个部分:

  • RHACM Hub:包括在多集群 control plane 上运行的组件
  • 受管集群:包括在受管理的集群中运行的组件

有关该产品的更多信息,请参阅 RHACM 文档RHACM "管理应用程序"文档

OpenShift Data Foundation

OpenShift Data Foundation 为 OpenShift Container Platform 集群中有状态应用程序提供部署和管理存储的功能。

OpenShift Data Foundation 由 Ceph 作为存储提供商提供支持,其生命周期由 OpenShift Data Foundation 组件堆栈中的 Rook 进行管理。Ceph-CSI 为有状态应用提供持久卷的调配与管理。

OpenShift Data Foundation 堆栈有了以下改进:

  • 启用用于镜像的池
  • 在 RBD 块池中自动镜像镜像
  • 提供 csi-addons 以管理每个持久性卷声明(PVC)镜像

OpenShift DR

OpenShift DR 是跨一组使用 RHACM 部署和管理的有状态应用程序的灾难恢复编排器,并提供云原生接口来编排应用程序状态在持久性卷上的生命周期。它们是:

  • 保护跨 OpenShift 集群的应用状态关系
  • 在应用程序状态变为对等集群时失败
  • 将应用的状态重新定位到之前部署的集群

OpenShift DR 被分成三个组件:

  • ODF 多集群编排器 :在多集群 control plane(RHACM Hub)上安装,它还执行以下操作:

    • 创建 bootstrap 令牌并在受管集群间交换此令牌。
    • 在受管集群中为默认的 CephBlockPool 启用镜像。
    • 为每个受管集群上的 PVCPV 元数据创建一个使用 Multicloud Object Gateway(MCG)的对象存储桶。
    • 为每个新对象存储桶创建一个 Secret,其中包含 openshift-dr-system 项目中对 Hub 集群 的存储桶访问的密钥。
    • 主受管集群次受管集群上创建 VolumeReplicationClass,间隔为 schedulingIntervals(例如 5m, 15m, 30m)。
    • 修改 Hub 集群上的 ramen-hub-operator-config ConfigMap,并添加 s3StoreProfiles 条目。
  • OpenShift DR Hub Operator:安装在 hub 集群上,为应用程序管理故障转移和重定位。
  • OpenShift DR Cluster Operator:安装在每个受管集群上,以管理应用程序的所有 PVC 的生命周期。