从版本 3 迁移到 4

OpenShift Container Platform 4.7

迁移到 OpenShift Container Platform 4

摘要

本文档提供了将 OpenShift Container Platform 集群从版本 3 迁移到版本 4 的信息。

第 1 章 关于从 OpenShift Container Platform 3 迁移到 4

OpenShift Container Platform 4 包含新的技术和功能,可使集群具有自我管理、灵活性和自动化的特点。OpenShift Container Platform 4 集群的部署和管理与 OpenShift Container Platform 3 不同。

从 OpenShift Container Platform 3 迁移到 4 的最有效方法是使用 CI/CD 管道在应用程序生命周期管理框架中自动执行部署。

如果您没有 CI/CD 管道,或者正在迁移有状态应用程序,您可以使用 Migration Toolkit for Containers (MTC) 迁移应用程序工作负载。

要成功过渡到 OpenShift Container Platform 4,请查看以下信息:

OpenShift Container Platform 3 和 4 之间的区别
  • 架构
  • 安装和升级
  • 存储、网络、日志记录、安全性和监控注意事项
关于 Migration Toolkit for Containers(MTC)
  • 工作流
  • 持久性卷 (PV) 的文件系统和快照复制方法.
  • 直接卷迁移
  • 直接镜像迁移
高级迁移选项
  • 使用迁移 hook 自动迁移
  • 使用 MTC API
  • 从迁移计划中排除资源
  • 为大规模迁移配置 MigrationController 自定义资源
  • 为直接卷迁移启用自动 PV 大小调整
  • 启用缓存的 Kubernetes 客户端以提高性能

第 2 章 OpenShift Container Platform 3 和 4 之间的区别

OpenShift Container Platform 4.7 引进了架构更改和增强。您用于管理 OpenShift Container Platform 3 集群的步骤可能不适用于 OpenShift Container Platform 4。

有关配置 OpenShift Container Platform 4 集群的详情,请查看 OpenShift Container Platform 文档的相关章节。如需有关新功能和其他显著技术更改的信息,请参阅 OpenShift Container Platform 4.7 发行注记

无法将现有 OpenShift Container Platform 3 集群升级到 OpenShift Container Platform 4。您必须开始新的 OpenShift Container Platform 4 安装。然后使用提供的工具来帮助迁移 control plane 设置和应用程序工作负载。

2.1. 架构

在 OpenShift Container Platform 3 中,管理员单独部署 Red Hat Enterprise Linux (RHEL) 主机,然后在这些主机之上安装 OpenShift Container Platform 来组成集群。管理员负责正确配置这些主机并执行更新。

在 OpenShift Container Platform 4 中,OpenShift Container Platform 集群的部署和管理方式有了显著变化。OpenShift Container Platform 4 包括新的技术和功能,如 Operators 、机器集和 Red Hat Enterprise Linux CoreOS (RHCOS) ,它们是集群操作的核心。这个技术转换使集群能够自我管理以前需要由管理员执行的一些功能。这也确保平台的稳定性和一致性,并简化了安装和扩展。

如需更多信息,请参阅 OpenShift Container Platform 架构

不可变基础架构

OpenShift Container Platform 4 使用 Red Hat Enterprise Linux CoreOS (RHCOS) ,它旨在运行容器化应用程序,并提供有效的安装、基于 Operator 的管理以及简化的升级。RHCOS 是不可变容器主机,而不是类似 RHEL 的可定制操作系统。RHCOS 使 OpenShift Container Platform 4 能够管理和自动化底层容器主机的部署。RHCOS 是 OpenShift Container Platform 的一部分,这意味着所有版本都在容器中运行,并且都使用 OpenShift Container Platform 部署。

在 OpenShift Container Platform 4 中,control plane 节点必须运行 RHCOS,以确保为 control plane 维护全堆栈的自动化。这使得更新和升级的过程比在 OpenShift Container Platform 3 中要容易。

如需更多信息,请参阅 Red Hat Enterprise Linux CoreOS(RHCOS)

Operator

Operator 是一种打包、部署和管理 Kubernetes 应用程序的方法。Operator 可简化运行另一部分软件的操作复杂性。它们会关检测您的环境,并使用当前状态实时做出决定。高级 Operator 旨在自动升级并对失败做出适当的响应。

如需更多信息,请参阅了解 Operator

2.2. 安装和升级

安装过程

对于安装 OpenShift Container Platform 3.11,需要准备 Red Hat Enterprise Linux (RHEL) 主机,设置集群所需的所有配置值,然后运行 Ansible playbook 来安装和设置集群。

在 OpenShift Container Platform 4.7 中,您可以使用 OpenShift 安装程序创建集群所需的最小资源集合。集群运行后,您可以使用 Operator 来进一步配置集群并安装新服务。首次启动后,RHCOS 系统由 OpenShift Container Platform 集群中运行的 Machine Config Operator (MCO) 进行管理。

如需更多信息,请参阅安装过程

如果要将 Red Hat Enterprise Linux(RHEL)worker 机器添加到 OpenShift Container Platform 4.7 集群,您可以使用 Ansible playbook 在集群运行后加入 RHEL worker 机器。如需更多信息,请参阅 在 OpenShift Container Platform 集群中添加 RHEL 计算机器

基础架构选项

对于 OpenShift Container Platform 3.11,需要在自己准备好的且被自己维护的基础架构上安装集群。对于 OpenShift Container Platform 4,除了可以在您自己提供的基础架构上安装集群外, 还提供了一个在 OpenShift Container Platform 安装程序置备和集群维护的基础架构上部署集群的选项。

如需更多信息,请参阅 OpenShift Container Platform 安装概述

升级集群

在 OpenShift Container Platform 3.11 中,您可以运行 Ansible playbook 来升级集群。在 OpenShift Container Platform 4.7 中,集群管理自己的更新,包括集群节点上的 Red Hat Enterprise Linux CoreOS(RHCOS)的更新。您可以使用 Web 控制台或使用 OpenShift CLI 的 oc adm upgrade 命令轻松升级集群,Operator 会自动升级其自身。如果您的 OpenShift Container Platform 4.7 集群有 RHEL worker 机器,那么您仍需要运行 Ansible playbook 来升级这些 worker 机器。

如需更多信息,请参阅更新集群

2.3. 迁移考虑

查看可能会影响 OpenShift Container Platform 3.11 转换到 OpenShift Container Platform 4 的更改和其他注意事项。

2.3.1. 存储注意事项

在从 OpenShift Container Platform 3.11 转换到 OpenShift Container Platform 4.7 时,请考虑以下与存储相关的变化。

本地卷持久性存储

只有在 OpenShift Container Platform 4.7 中使用 Local Storage Operator 才支持本地存储。不支持使用 OpenShift Container Platform 3.11 的 local provisioner 方法。

如需更多信息,请参阅使用本地卷的持久性存储

FlexVolume 持久性存储

FlexVolume 插件位置已与 OpenShift Container Platform 3.11 中的不同。它在 OpenShift Container Platform 4.7 中的新位置为 /etc/kubernetes/kubelet-plugins/volume/exec。不再支持可附加的 FlexVolume 插件。

如需更多信息,请参阅使用 FlexVolume 的持久性存储

使用容器存储接口 (CSI) 的持久性存储

使用 Container Storage Interface (CSI) 的持久性存储在 OpenShift Container Platform 3.11 中是一个技术预览功能 。OpenShift Container Platform 4.7 完全支持 CSI 版本 1.1.0,并附带多个 CSI 驱动程序。您还可以安装自己的驱动程序。

如需更多信息,请参阅使用 Container Storage Interface(CSI)的持久性存储

OpenShift Container Storage

Red Hat OpenShift Container Storage 3 可以与 OpenShift Container Platform 3.11 一起使用,使用 Red Hat Gluster Storage 作为后端存储。

Red Hat OpenShift Container Storage 4 可以与 OpenShift Container Platform 4 一起使用,使用 Red Hat Ceph Storage 作为后备存储。

如需更多信息,请参阅使用 Red Hat OpenShift Container Storage 的持久性存储互操作性文档

可用的持久性存储选项

OpenShift Container Platform 4.7 中更改了对 OpenShift Container Platform 3.11 的以下持久性存储选项的支持:

  • GlusterFS 不再被支持。
  • CephFS 作为独立产品不再被支持。
  • Ceph RBD 作为独立产品不再被支持。

如果您在 OpenShift Container Platform 3.11 中使用了其中之一,则需要选择不同的持久性存储选项以便在 OpenShift Container Platform 4.7 中获得全面支持。

如需更多信息,请参阅了解持久性存储

2.3.2. 网络注意事项

在从 OpenShift Container Platform 3.11 转换到 OpenShift Container Platform 4.7 时,请考虑以下与网络相关的变化。

网络隔离模式

虽然用户经常切换为使用 ovn-multitenant,但是 OpenShift Container Platform 3.11 的默认网络隔离模式是 ovs-subnet。OpenShift Container Platform 4.7 的默认网络隔离模式由网络策略控制。

如果您的 OpenShift Container Platform 3.11 集群使用了 ovs-subnetovs-multitenant 模式,则建议在 OpenShift Container Platform 4.7 集群中使用网络策略。网络策略由上游社区支持,它更灵活并提供 ovs-multitenant 的功能。如果您要在 OpenShift Container Platform 4.7 中使用网络策略时仍然希望维持 ovs-multitenant 的行为,请按照以下步骤使用网络策略配置多租户隔离

如需更多信息,请参阅关于网络策略

2.3.3. 日志记录注意事项

在从 OpenShift Container Platform 3.11 转换到 OpenShift Container Platform 4.7 时,请考虑以下与日志相关的变化。

部署 OpenShift Logging

OpenShift Container Platform 4 通过使用集群日志记录自定义资源为 OpenShift Logging 提供了一个简单的部署机制。

如需更多信息,请参阅安装 OpenShift Logging

聚合日志数据

您无法将 OpenShift Container Platform 3.11 的聚合日志记录数据转换到新的 OpenShift Container Platform 4 集群中。

如需更多信息,请参阅关于 OpenShift Logging

不支持的日志配置

OpenShift Container Platform 4.7 不再支持 OpenShift Container Platform 3.11 中的一些日志记录配置。

有关明确不支持的日志问题单的更多信息,请参阅维护和支持

2.3.4. 安全考虑

在从 OpenShift Container Platform 3.11 转换到 OpenShift Container Platform 4.7 时,请考虑以下与安全相关的变化。

对发现端点的未验证访问

在 OpenShift Container Platform 3.11 中,未经身份验证的用户可以访问发现端点(例如: /api/*/apis/*)。为了安全起见,OpenShift Container Platform 4.7 不再允许对发现端点进行未经身份验证的访问。如果确实需要允许未经身份验证的访问,可根据需要配置 RBAC 设置,但请务必考虑安全性影响,因为这可能会使内部集群组件暴露给外部网络。

用户身份供应商

为 OpenShift Container Platform 4 配置身份供应商包括以下显著的更改:

  • OpenShift Container Platform 4.7 中的请求标头身份供应商需要 mutual TLS,而在 OpenShift Container Platform 3.11 中不需要。
  • OpenShift Container Platform 4.7 中简化了 OpenID Connect 身份提供程序的配置。现在,它从供应商的 /.well-known/OpenID-configuration 端点获取数据。而之前需要在 OpenShift Container Platform 3.11 中指定。

如需更多信息,请参阅了解身份提供程序配置

OAuth 令牌存储格式

新创建的 OAuth HTTP 持有者令牌不再匹配其 OAuth 访问令牌对象的名称。对象名称现在是一个 bearer 令牌哈希,它不再敏感。这可减少泄漏敏感信息的风险。

2.3.5. 监控注意事项

在从 OpenShift Container Platform 3.11 转换到 OpenShift Container Platform 4.7 时,请考虑以下与监控相关的变化。

监控基础架构可用性的警报

OpenShift Container Platform 3.11 中,触发的确保监控结构可用的默认警报称为 DeadMansSwitch 。在 OpenShift Container Platform 4 中,它被重新命名为 Watchdog 。如果您在 OpenShift Container Platform 3.11 中使用带有此警报设置的 PagerDuty 集成,则需要在 OpenShift Container Platform 4 中使用带有 Watchdog 警报设置的 PagerDuty 集成。

如需更多信息,请参阅应用自定义 Alertmanager 配置

第 3 章 关于 Migration Toolkit for Containers(MTC)

MTC(Migration Toolkit for Containers)可让您以命名空间的粒度将有状态应用程序工作负载从 OpenShift Container Platform 3 迁移到 4.7。

重要

在开始迁移前,请查看 OpenShift Container Platform 3 和 4 之间的区别

MTC 控制台默认安装在目标集群中。您可以配置 MTC Operator 在 OpenShift Container Platform 3 源集群或远程集群中安装控制台。

MTC 支持将数据从源集群迁移到目标集群的文件系统和快照数据复制方法。您可以选择适合于您的环境并受您的存储供应商支持的方法。

OpenShift Container Platform 4 中已弃用服务目录。您可以将服务目录置备的工作负载资源从 OpenShift Container Platform 3 迁移到 4,但无法在迁移后在这些工作负载上执行服务目录操作,如 provisiondeprovisionupdate。如果无法迁移服务目录资源,MTC 控制台会显示一条消息。

3.1. MTC 术语

表 3.1. MTC 术语

术语定义

源集群

从中迁移应用程序的集群。

目标集群[1]

将应用程序迁移到的集群。

复制软件仓库

用于在间接迁移过程中复制镜像、卷和 Kubernetes 对象的对象存储,或者用于直接卷迁移或直接镜像迁移期间 Kubernetes 对象的对象存储。

复制存储库必须可以被所有集群访问。

主机集群

运行 migration-controller pod 和 Web 控制台的集群。主机群集通常是目标集群,但这不是必需的。

主机集群不需要公开的 registry 路由来直接迁移镜像。

远程集群

远程集群通常是源集群,但这不是必需的。

远程集群需要一个包含 migration-controller 服务帐户令牌的 Secret 自定义资源。

远程集群需要一个公开的安全 registry 路由来直接迁移镜像。

间接迁移

镜像、卷和 Kubernetes 对象从源集群复制到复制存储库,然后从复制存储库复制到目标集群。

直接卷迁移

持久性卷直接从源集群复制到目标集群。

直接镜像迁移

镜像直接从源集群复制到目标集群。

阶段迁移

在不停止应用程序的情况下,数据将复制到目标集群。

多次运行阶段迁移会缩短迁移的持续时间。

剪切迁移

应用在源集群中停止,其资源迁移到目标集群。

状态迁移

通过将特定的持久性卷声明和 Kubernetes 对象复制到目标集群来迁移应用状态。

回滚迁移

回滚迁移会回滚一个已完成的迁移。

1 在 MTC web 控制台中称为 目标集群

3.2. MTC 工作流

您可以使用 MTC web 控制台或 Kubernetes API 将 Kubernetes 资源、持久性卷数据和内部容器镜像迁移到 OpenShift Container Platform 4.7。

MTC 迁移以下资源:

  • 在迁移计划中指定的命名空间。
  • 命名空间范围的资源:当 MTC 迁移命名空间时,它会迁移与该命名空间关联的所有对象和资源,如服务或 Pod。另外,如果一个资源在命名空间中存在但不在集群级别,这个资源依赖于集群级别存在的另外一个资源,MTC 会迁移这两个资源。

    例如,安全性上下文约束(SCC)是一个存在于集群级别的资源,服务帐户(SA)是存在于命名空间级别的资源。如果 MTC 迁移的命名空间中存在 SA,MTC 会自动找到链接到 SA 的所有 SCC,并迁移这些 SCC。同样,MTC 会迁移链接到命名空间持久性卷的持久性卷声明。

    注意

    根据资源,可能需要手动迁移集群范围的资源。

  • 自定义资源 (CR) 和自定义资源定义 (CRD):MTC 在命名空间级别自动迁移 CR 和 CRD。

使用 MTC Web 控制台迁移应用程序涉及以下步骤:

  1. 在所有集群中安装 MTC Operator。

    您可以在有限的或没有互联网访问的受限环境中为 Containers Operator 安装 Migration Toolkit。源和目标集群必须可以在相互间进行访问,而需要可以访问 registry 的镜像(mirror).

  2. 配置复制存储库,这是 MTC 用来迁移数据的中间对象存储。

    源和目标集群必须有对复制仓库的不受限制的网络访问权限。如果使用代理服务器,您必须将其配置为允许复制仓库和集群间的网络流量。

  3. 在 MTC web 控制台中添加源集群。
  4. 在 MTC web 控制台中添加复制存储库。
  5. 创建迁移计划,包含以下数据迁移选项之一:

    • Copy:MTC 将数据从源集群复制到复制存储库,再从复制存储库把数据复制到目标集群。

      注意

      如果您使用直接镜像迁移或直接卷迁移,则镜像或卷会直接从源集群复制到目标集群。

      迁移 PV 复制
    • Move:MTC 从源集群中卸载一个远程卷(例如 NFS),在目标集群上创建一个指向这个远程卷的 PV 资源,然后在目标集群中挂载远程卷。在目标集群中运行的应用程序使用源集群使用的同一远程卷。远程卷必须可以被源集群和目标集群访问。

      注意

      虽然复制仓库没有出现在此图表中,但迁移需要它。

      迁移 PV 移动
  6. 运行迁移计划,使用以下选项之一:

    • Stage (可选)在不停止应用程序的情况下将数据复制到目标集群。

      Stage 可以多次运行,以便在迁移前将大多数数据复制到目标。这可最小化迁移时间和应用程序的停机时间。

    • Migrate 在源集群中停止应用程序,并在目标集群中重新创建其资源。您可以选择在不停止应用程序的情况下迁移工作负载。
OCP 3 到 4 的应用程序迁移

3.3. 关于数据复制方法

Migration Toolkit for Containers (MTC) 支持将数据从源集群迁移到目标集群的文件系统和快照数据复制方法。您可以选择适合于您的环境并受您的存储供应商支持的方法。

3.3.1. 文件系统复制方法

MTC 工具将数据文件从源集群复制到复制存储库,并从那里复制到目标集群。

表 3.2. 文件系统复制方法概述

优点限制:
  • 集群可以有不同的存储类。
  • 所有 S3 存储供应商都支持。
  • 使用 checksum 验证数据(可选)
  • 支持直接卷迁移,这会显著提高性能。
  • 比快照复制方法慢。
  • 可选的数据校验可能会显著降低性能。

3.3.2. 快照复制方法

MTC 将源集群数据的快照复制到云供应商的复制仓库。数据在目标集群上恢复。

AWS、Google Cloud Provider 和 Microsoft Azure 支持快照复制方法。

表 3.3. 快照复制方法概述

优点限制:
  • 比文件系统复制方法快。
  • 云供应商必须支持快照。
  • 集群必须位于相同的云供应商。
  • 集群必须位于同一位置或区域。
  • 集群必须具有相同的存储类。
  • 存储类必须与快照兼容。
  • 不支持直接卷迁移。

3.4. 直接卷迁移和直接镜像迁移

您可以使用直接镜像迁移直接卷迁移将镜像和数据从源集群迁移到目标集群。

直接迁移具有显著性能优势,因为它会跳过将文件从源集群备份到复制存储库,并从复制存储库恢复到目标集群的中间步骤。

直接迁移使用 Rsync 传输文件。

注意

直接镜像迁移和直接卷迁移额外先决条件。

第 4 章 安装 MTC

您可以在 OpenShift Container Platform 3 和 4 上安装 MTC。

使用 Operator Lifecycle Manager 在 OpenShift Container Platform 4.7 上安装 MTC Operator 后,您可以在 OpenShift Container Platform 3 中手动安装旧的 MTC Operator。

默认情况下,MTC web 控制台和 Migration Controller pod 在目标集群中运行。您可以配置 Migration Controller 自定义资源清单来在源集群或远程集群中运行 MTC web 控制台和 Migration Controller pod。

安装 MTC 后,您必须配置对象存储以用作复制存储库。

4.1. 兼容性指南

您必须安装与 OpenShift Container Platform 版本兼容的 MTC 版本。

表 4.1. OpenShift Container Platform 和 MTC 兼容性

OpenShift Container Platform 版本MTC 版本Containers Operator 的 Migration Toolkit

3.7

1.5.1

容器操作器的传统迁移工具.

使用 operator-3.7.yml 文件手动安装。

3.9 到 4.5

1.5.1

容器操作器的传统迁移工具.

使用 operator.yml 文件手动安装。

4.6 及更新的版本

1.5.1

容器操作员迁移工具箱.

使用 Operator Lifecycle Manager 安装。

4.2. 在 OpenShift Container Platform 3 上安装旧的 MTC Operator

您可以在 OpenShift Container Platform 3 上手动安装旧的 MTC Operator。

先决条件

  • 必须使用在所有集群中具有 cluster-admin 权限的用户登录。
  • 您必须有权访问 registry.redhat.io
  • 必须安装 podman
  • 您必须创建一个镜像流 secret,并将其复制到集群中的每个节点。

流程

  1. 使用您的红帽客户门户网站账户登陆到 registry.redhat.io

    $ sudo podman login registry.redhat.io
  2. 为 OpenShift Container Platform 版本下载 operator.yml 文件:

    • OpenShift Container Platform 版本 3.7:

      $ sudo podman cp $(sudo podman create \
        registry.redhat.io/rhmtc/openshift-migration-legacy-rhel8-operator:v1.5.1):/operator-3.7.yml ./
    • OpenShift Container Platform 版本 3.9 到 3.11:

      $ sudo podman cp $(sudo podman create \
        registry.redhat.io/rhmtc/openshift-migration-legacy-rhel8-operator:v1.5.1):/operator.yml ./
  3. 下载 controller.yml 文件:

    $ sudo podman cp $(sudo podman create \
      registry.redhat.io/rhmtc/openshift-migration-legacy-rhel8-operator:v1.5.1):/controller.yml ./
  4. 登录您的 OpenShift Container Platform 3 集群。
  5. 验证集群可以在 registry.redhat.io 中进行身份验证:

    $ oc run test --image registry.redhat.io/ubi8 --command sleep infinity
  6. 创建 MTC Operator 对象的 Migration Toolkit:

    $ oc create -f operator.yml

    输出示例

    namespace/openshift-migration created
    rolebinding.rbac.authorization.k8s.io/system:deployers created
    serviceaccount/migration-operator created
    customresourcedefinition.apiextensions.k8s.io/migrationcontrollers.migration.openshift.io created
    role.rbac.authorization.k8s.io/migration-operator created
    rolebinding.rbac.authorization.k8s.io/migration-operator created
    clusterrolebinding.rbac.authorization.k8s.io/migration-operator created
    deployment.apps/migration-operator created
    Error from server (AlreadyExists): error when creating "./operator.yml":
    rolebindings.rbac.authorization.k8s.io "system:image-builders" already exists 1
    Error from server (AlreadyExists): error when creating "./operator.yml":
    rolebindings.rbac.authorization.k8s.io "system:image-pullers" already exists

    1
    您可以忽略 Error from server (AlreadyExists) 信息。它们是由 MTC Operator 为早期版本的 OpenShift Container Platform 3 创建资源造成的,这些资源在以后的版本中已提供。
  7. 创建 MigrationController 对象:

    $ oc create -f controller.yml
  8. 验证 MTC Pod 是否正在运行:

    $ oc get pods -n openshift-migration

4.3. 在 OpenShift Container Platform 4.7 上安装 MTC Operator

您可以使用 Operator Lifecycle Manager 在 OpenShift Container Platform 4.7 上安装 MTC Operator。

先决条件

  • 必须使用在所有集群中具有 cluster-admin 权限的用户登录。

流程

  1. 在 OpenShift Container Platform Web 控制台中,点击 OperatorsOperatorHub
  2. 使用 Filter by keyword 字段查找 MTCs Operator
  3. 选择 Migration Toolkit for Containers Operator 并点 Install
  4. 点击 Install

    Installed Operators 页中,openshift-migration 项目中会出现状态为 SucceededMigration Toolkit for Containers Operator

  5. Migration Toolkit for Containers Operator
  6. Provided APIs 下,找到 Migration Controller 标题,再点 Create Instance
  7. 点击 Create
  8. WorkloadsPods 来验证 MTC pod 正在运行 。

4.4. 配置代理

对于 OpenShift Container Platform 4.1 及更早的版本,您必须在安装 MTC Operator 的 Migration Toolkit for Containers Operator 后,在 MigrationController 自定义资源(CR)清单中配置代理,因为这些版本不支持集群范围的 代理 对象。

对于 OpenShift Container Platform 4.2 到 4.7,MTC 会继承集群范围的代理设置。如果要覆盖集群范围的代理设置,可以更改代理参数。

您必须将代理配置为允许 SPDY 协议,并将 Upgrade HTTP 标头转发到 API 服务器。否则,会显示 Upgrade request required 错误。MigrationController CR 使用 SPDY 在远程 pod 内运行命令。需要 Upgrade HTTP 标头来打开与 API 服务器的 websocket 连接。

直接卷迁移

如果要从代理后面的源集群执行直接卷迁移 (DVM),您必须配置 Stunnel 代理。stunnel 在源和目标集群之间为 TCP 连接创建透明的隧道,而不更改证书。

DVM 只支持一个代理。如果目标集群也位于代理后面,则源集群无法访问目标集群的路由。

先决条件

  • 必须使用在所有集群中具有 cluster-admin 权限的用户登录。

流程

  1. 获取 MigrationController CR 清单:

    $ oc get migrationcontroller <migration_controller> -n openshift-migration
  2. 更新代理参数:

    apiVersion: migration.openshift.io/v1alpha1
    kind: MigrationController
    metadata:
      name: <migration_controller>
      namespace: openshift-migration
    ...
    spec:
      stunnel_tcp_proxy: http://<username>:<password>@<ip>:<port> 1
      httpProxy: http://<username>:<password>@<ip>:<port> 2
      httpsProxy: http://<username>:<password>@<ip>:<port> 3
      noProxy: example.com 4
    1
    用于直接卷迁移的 stunnel 代理 URL。
    2
    用于创建集群外 HTTP 连接的代理 URL。URL 必须是 http
    3
    用于在集群外创建 HTTPS 连接的代理 URL。如果没有指定,则 httpProxy 会同时用于 HTTP 和 HTTPS 连接。
    4
    要排除代理的目标域名、域、IP 地址或其他网络 CIDR 的逗号分隔列表。

    在域前面加 . 来仅匹配子域。例如: .y.com 匹配 x.y.com,但不匹配 y.com。使用 * 可对所有目的地绕过所有代理。如果您扩展了未包含在安装配置中 networking.machineNetwork[].cidr 字段定义的 worker,您必须将它们添加到此列表中,以防止连接问题。

    如果未设置 httpProxy 和 httpsProxy 字段,则此字段将被忽略。

  3. 将清单保存为 migration-controller.yaml
  4. 应用更新的清单:

    $ oc replace -f migration-controller.yaml -n openshift-migration

如需更多信息 ,请参阅配置集群范围代理

4.5. 配置复制存储库

您必须将对象存储配置为用作复制存储库。MTC 将数据从源集群复制到复制存储库,然后从复制存储库复制到目标集群。

MTC 支持将数据从源集群迁移到目标集群 的文件系统和快照数据复制方法。您可以选择适合于您的环境并受您的存储供应商支持的方法。

支持以下存储供应商:

4.5.1. 先决条件

  • 所有集群都必须具有对复制存储库的不间断网络访问权限。
  • 如果您将代理服务器与内部托管的复制存储库搭配使用,您必须确保代理允许访问复制存储库。

4.5.2. 配置 Multicloud 对象网关

您可以将 Multicloud 对象网关 (MCG) 配置为 MTC 的 Migration Toolkit for Containers (MTC) 的复制仓库。MCG 是 OpenShift Container Storage 的一个组件。

流程

  1. 使用适当的 OpenShift Container Storage 部署指南来部署 OpenShift Container Storage。
  2. 通过对 NooBaa 自定义资源运行 describe 命令,获取 S3 端点、AWS_ACCESS_KEY_IDAWS_SECRET_ACCESS_KEY

    将 MCG 作为复制存储库添加到 MTC web 控制台中时会需要这些值。

4.5.3. 配置 Amazon Web Services S3

您可以将 Amazon Web Services(AWS)S3 存储桶配置为 Migration Toolkit for Containers(MTC)的复制仓库。

先决条件

  • AWS S3 存储桶必须可以被源和目标集群访问。
  • 您必须安装了 AWS CLI
  • 如果您使用快照复制方法:

    • 您必须有权访问 EC2 Elastic Block Storage (EBS)。
    • 源和目标集群必须位于同一区域。
    • 源和目标集群必须具有相同的存储类。
    • 存储类必须与快照兼容。

流程

  1. 创建 AWS S3 存储桶:

    $ aws s3api create-bucket \
        --bucket <bucket> \ 1
        --region <bucket_region> 2
    1
    指定 S3 存储桶名称。
    2
    指定 S3 存储桶区域,例如 us-east-1
  2. 创建 IAM 用户 velero

    $ aws iam create-user --user-name velero
  3. 创建 EC2 EBS 快照策略:

    $ cat > velero-ec2-snapshot-policy.json <<EOF
    {
        "Version": "2012-10-17",
        "Statement": [
            {
                "Effect": "Allow",
                "Action": [
                    "ec2:DescribeVolumes",
                    "ec2:DescribeSnapshots",
                    "ec2:CreateTags",
                    "ec2:CreateVolume",
                    "ec2:CreateSnapshot",
                    "ec2:DeleteSnapshot"
                ],
                "Resource": "*"
            }
        ]
    }
    EOF
  4. 为一个或所有 S3 存储桶创建 AWS S3 访问策略:

    $ cat > velero-s3-policy.json <<EOF
    {
        "Version": "2012-10-17",
        "Statement": [
            {
                "Effect": "Allow",
                "Action": [
                    "s3:GetObject",
                    "s3:DeleteObject",
                    "s3:PutObject",
                    "s3:AbortMultipartUpload",
                    "s3:ListMultipartUploadParts"
                ],
                "Resource": [
                    "arn:aws:s3:::<bucket>/*" 1
                ]
            },
            {
                "Effect": "Allow",
                "Action": [
                    "s3:ListBucket",
                    "s3:GetBucketLocation",
                    "s3:ListBucketMultipartUploads"
                ],
                "Resource": [
                    "arn:aws:s3:::<bucket>" 2
                ]
            }
        ]
    }
    EOF
    1 2
    要授予对单一 S3 存储桶的访问权限,请指定存储桶名称。要授予对所有 AWS S3 存储桶的访问权限,请指定 * 而不是存储桶名称,如下例所示:

    输出示例

    "Resource": [
        "arn:aws:s3:::*"

  5. 将 EC2 EBS 策略附加到 velero

    $ aws iam put-user-policy \
      --user-name velero \
      --policy-name velero-ebs \
      --policy-document file://velero-ec2-snapshot-policy.json
  6. 将 AWS S3 策略附加到 velero

    $ aws iam put-user-policy \
      --user-name velero \
      --policy-name velero-s3 \
      --policy-document file://velero-s3-policy.json
  7. velero 创建访问密钥:

    $ aws iam create-access-key --user-name velero
    {
      "AccessKey": {
            "UserName": "velero",
            "Status": "Active",
            "CreateDate": "2017-07-31T22:24:41.576Z",
            "SecretAccessKey": <AWS_SECRET_ACCESS_KEY>, 1
            "AccessKeyId": <AWS_ACCESS_KEY_ID> 2
        }
    }
    1 2
    记录 AWS_SECRET_ACCESS_KEYAWS_ACCESS_KEY_ID 以将 AWS 存储库添加到 MTC web 控制台。

4.5.4. 配置 Google Cloud Platform

您可以将 Google Cloud Platform (GCP) 存储桶配置为 Migration Toolkit for Containers (MTC) 的复制仓库。

先决条件

  • AWS S3 存储桶必须可以被源和目标集群访问。
  • 您必须安装了 gsutil
  • 如果您使用快照复制方法:

    • 源和目标集群必须位于同一区域。
    • 源和目标集群必须具有相同的存储类。
    • 存储类必须与快照兼容。

流程

  1. 登录到 gsutil:

    $ gsutil init

    输出示例

    Welcome! This command will take you through the configuration of gcloud.
    
    Your current configuration has been set to: [default]
    
    To continue, you must login. Would you like to login (Y/n)?

  2. 设置 BUCKET 变量:

    $ BUCKET=<bucket> 1
    1
    指定存储桶名称。
  3. 创建存储桶:

    $ gsutil mb gs://$BUCKET/
  4. PROJECT_ID 变量设置为您的活跃项目:

    $ PROJECT_ID=`gcloud config get-value project`
  5. 创建 velero IAM 服务帐户:

    $ gcloud iam service-accounts create velero \
        --display-name "Velero Storage"
  6. 创建 SERVICE_ACCOUNT_EMAIL 变量:

    $ SERVICE_ACCOUNT_EMAIL=`gcloud iam service-accounts list \
      --filter="displayName:Velero Storage" \
      --format 'value(email)'`
  7. 创建 ROLE_PERMISSIONS 变量:

    $ ROLE_PERMISSIONS=(
        compute.disks.get
        compute.disks.create
        compute.disks.createSnapshot
        compute.snapshots.get
        compute.snapshots.create
        compute.snapshots.useReadOnly
        compute.snapshots.delete
        compute.zones.get
    )
  8. 创建 velero.server 自定义角色:

    $ gcloud iam roles create velero.server \
        --project $PROJECT_ID \
        --title "Velero Server" \
        --permissions "$(IFS=","; echo "${ROLE_PERMISSIONS[*]}")"
  9. 为项目添加 IAM 策略绑定:

    $ gcloud projects add-iam-policy-binding $PROJECT_ID \
        --member serviceAccount:$SERVICE_ACCOUNT_EMAIL \
        --role projects/$PROJECT_ID/roles/velero.server
  10. 更新 IAM 服务帐户:

    $ gsutil iam ch serviceAccount:$SERVICE_ACCOUNT_EMAIL:objectAdmin gs://${BUCKET}
  11. 将 IAM 服务帐户的密钥保存到当前目录中的 credentials-velero 文件中:

    $ gcloud iam service-accounts keys create credentials-velero \
      --iam-account $SERVICE_ACCOUNT_EMAIL

4.5.5. 配置 Microsoft Azure Blob

您可以将 Microsoft Azure Blob 存储容器配置为 Migration Toolkit for Containers(MTC)的复制仓库。

先决条件

  • 您必须具有 Azure 存储帐户
  • 您必须安装了 Azure CLI
  • Azure Blob 存储容器必须可以被源和目标集群访问。
  • 如果您使用快照复制方法:

    • 源和目标集群必须位于同一区域。
    • 源和目标集群必须具有相同的存储类。
    • 存储类必须与快照兼容。

流程

  1. 设置 AZURE_RESOURCE_GROUP 变量:

    $ AZURE_RESOURCE_GROUP=Velero_Backups
  2. 创建 Azure 资源组:

    $ az group create -n $AZURE_RESOURCE_GROUP --location <CentralUS> 1
    1
    指定位置。
  3. 设置 AZURE_STORAGE_ACCOUNT_ID 变量:

    $ AZURE_STORAGE_ACCOUNT_ID=velerobackups
  4. 创建 Azure 存储帐户:

    $ az storage account create \
      --name $AZURE_STORAGE_ACCOUNT_ID \
      --resource-group $AZURE_RESOURCE_GROUP \
      --sku Standard_GRS \
      --encryption-services blob \
      --https-only true \
      --kind BlobStorage \
      --access-tier Hot
  5. 设置 BLOB_CONTAINER 变量:

    $ BLOB_CONTAINER=velero
  6. 创建 Azure Blob 存储容器:

    $ az storage container create \
      -n $BLOB_CONTAINER \
      --public-access off \
      --account-name $AZURE_STORAGE_ACCOUNT_ID
  7. velero 创建服务主体和凭证:

    $ AZURE_SUBSCRIPTION_ID=`az account list --query '[?isDefault].id' -o tsv` \
      AZURE_TENANT_ID=`az account list --query '[?isDefault].tenantId' -o tsv` \
      AZURE_CLIENT_SECRET=`az ad sp create-for-rbac --name "velero" --role "Contributor" --query 'password' -o tsv` \
      AZURE_CLIENT_ID=`az ad sp list --display-name "velero" --query '[0].appId' -o tsv`
  8. credentials-velero 文件中保存服务主体的凭证:

    $ cat << EOF  > ./credentials-velero
    AZURE_SUBSCRIPTION_ID=${AZURE_SUBSCRIPTION_ID}
    AZURE_TENANT_ID=${AZURE_TENANT_ID}
    AZURE_CLIENT_ID=${AZURE_CLIENT_ID}
    AZURE_CLIENT_SECRET=${AZURE_CLIENT_SECRET}
    AZURE_RESOURCE_GROUP=${AZURE_RESOURCE_GROUP}
    AZURE_CLOUD_NAME=AzurePublicCloud
    EOF

4.5.6. 用于配置复制存储库的其他资源

第 5 章 在受限网络环境中安装 MTC

您可以在受限网络环境中的 OpenShift Container Platform 3 和 4 上安装 MTC。

使用 Operator Lifecycle Manager 在 OpenShift Container Platform 4.7 上安装 MTC Operator 后,您可以在 OpenShift Container Platform 3 中手动安装旧的 MTC Operator。

默认情况下,MTC web 控制台和 Migration Controller pod 在目标集群中运行。您可以配置 Migration Controller 自定义资源清单来在源集群或远程集群中运行 MTC web 控制台和 Migration Controller pod。

安装 MTC 后,您必须配置对象存储以用作复制存储库。

5.1. 兼容性指南

您必须安装与 OpenShift Container Platform 版本兼容的 MTC 版本。

表 5.1. OpenShift Container Platform 和 MTC 兼容性

OpenShift Container Platform 版本MTC 版本Containers Operator 的 Migration Toolkit

3.7

1.5.1

容器操作器的传统迁移工具.

使用 operator-3.7.yml 文件手动安装。

3.9 到 4.5

1.5.1

容器操作器的传统迁移工具.

使用 operator.yml 文件手动安装。

4.6 及更新的版本

1.5.1

容器操作员迁移工具箱.

使用 Operator Lifecycle Manager 安装。

5.2. 在 OpenShift Container Platform 4.7 上安装 MTC Operator

您可以使用 Operator Lifecycle Manager 在 OpenShift Container Platform 4.7 上安装 MTC Operator。

先决条件

  • 必须使用在所有集群中具有 cluster-admin 权限的用户登录。
  • 您必须从本地 registry 中的镜像创建 Operator 目录。

流程

  1. 在 OpenShift Container Platform Web 控制台中,点击 OperatorsOperatorHub
  2. 使用 Filter by keyword 字段查找 MTCs Operator
  3. 选择 Migration Toolkit for Containers Operator 并点 Install
  4. 点击 Install

    Installed Operators 页中,openshift-migration 项目中会出现状态为 SucceededMigration Toolkit for Containers Operator

  5. Migration Toolkit for Containers Operator
  6. Provided APIs 下,找到 Migration Controller 标题,再点 Create Instance
  7. 点击 Create
  8. WorkloadsPods 来验证 MTC pod 正在运行 。

5.3. 在 OpenShift Container Platform 3 上安装旧的 MTC Operator

您可以在 OpenShift Container Platform 3 上手动安装旧的 MTC Operator。

先决条件

  • 必须使用在所有集群中具有 cluster-admin 权限的用户登录。
  • 您必须有权访问 registry.redhat.io
  • 必须安装 podman
  • 您必须创建一个镜像流 secret,并将其复制到集群中的每个节点。
  • 您必须有一个有网络访问权限的 Linux 工作站才能从 registry.redhat.io 下载文件。
  • 首先,您必须从本地 registry 在目标集群上安装 MTC Operator。

流程

  1. 使用您的红帽客户门户网站账户登陆到 registry.redhat.io

    $ sudo podman login registry.redhat.io
  2. 为 OpenShift Container Platform 版本下载 operator.yml 文件:

    • OpenShift Container Platform 版本 3.7:

      $ sudo podman cp $(sudo podman create \
        registry.redhat.io/rhmtc/openshift-migration-legacy-rhel8-operator:v1.5.1):/operator-3.7.yml ./
    • OpenShift Container Platform 版本 3.9 到 3.11:

      $ sudo podman cp $(sudo podman create \
        registry.redhat.io/rhmtc/openshift-migration-legacy-rhel8-operator:v1.5.1):/operator.yml ./
  3. 下载 controller.yml 文件:

    $ sudo podman cp $(sudo podman create \
      registry.redhat.io/rhmtc/openshift-migration-legacy-rhel8-operator:v1.5.1):/controller.yml ./
  4. 在 OpenShift Container Platform 4 集群中运行以下命令来获取 Operator 镜像映射:

    $ grep openshift-migration-legacy-rhel8-operator ./mapping.txt | grep rhmtc

    输出显示了 registry.redhat.io 镜像和您的镜像 registry 镜像之间的映射。

    输出示例

    registry.redhat.io/rhmtc/openshift-migration-legacy-rhel8-operator@sha256:468a6126f73b1ee12085ca53a312d1f96ef5a2ca03442bcb63724af5e2614e8a=<registry.apps.example.com>/rhmtc/openshift-migration-legacy-rhel8-operator

  5. operator.yml 文件中,为 ansibleoperator 容器更新 image 值,并更新 REGISTRY 值:

    containers:
      - name: ansible
        image: <registry.apps.example.com>/rhmtc/openshift-migration-legacy-rhel8-operator@sha256:<468a6126f73b1ee12085ca53a312d1f96ef5a2ca03442bcb63724af5e2614e8a> 1
    ...
      - name: operator
        image: <registry.apps.example.com>/rhmtc/openshift-migration-legacy-rhel8-operator@sha256:<468a6126f73b1ee12085ca53a312d1f96ef5a2ca03442bcb63724af5e2614e8a> 2
    ...
        env:
        - name: REGISTRY
          value: <registry.apps.example.com> 3
    1 2
    指定您的镜像 registry 和 Operator 镜像的 sha256 值。
    3
    指定您的镜像 registry。
  6. 登录您的 OpenShift Container Platform 3 集群。
  7. 验证集群可以在 registry.redhat.io 中进行身份验证:

    $ oc run test --image registry.redhat.io/ubi8 --command sleep infinity
  8. 创建 MTC Operator 对象的 Migration Toolkit:

    $ oc create -f operator.yml

    输出示例

    namespace/openshift-migration created
    rolebinding.rbac.authorization.k8s.io/system:deployers created
    serviceaccount/migration-operator created
    customresourcedefinition.apiextensions.k8s.io/migrationcontrollers.migration.openshift.io created
    role.rbac.authorization.k8s.io/migration-operator created
    rolebinding.rbac.authorization.k8s.io/migration-operator created
    clusterrolebinding.rbac.authorization.k8s.io/migration-operator created
    deployment.apps/migration-operator created
    Error from server (AlreadyExists): error when creating "./operator.yml":
    rolebindings.rbac.authorization.k8s.io "system:image-builders" already exists 1
    Error from server (AlreadyExists): error when creating "./operator.yml":
    rolebindings.rbac.authorization.k8s.io "system:image-pullers" already exists

    1
    您可以忽略 Error from server (AlreadyExists) 信息。它们是由 MTC Operator 为早期版本的 OpenShift Container Platform 3 创建资源造成的,这些资源在以后的版本中已提供。
  9. 创建 MigrationController 对象:

    $ oc create -f controller.yml
  10. 验证 MTC Pod 是否正在运行:

    $ oc get pods -n openshift-migration

5.4. 配置代理

对于 OpenShift Container Platform 4.1 及更早的版本,您必须在安装 MTC Operator 的 Migration Toolkit for Containers Operator 后,在 MigrationController 自定义资源(CR)清单中配置代理,因为这些版本不支持集群范围的 代理 对象。

对于 OpenShift Container Platform 4.2 到 4.7,MTC 会继承集群范围的代理设置。如果要覆盖集群范围的代理设置,可以更改代理参数。

您必须将代理配置为允许 SPDY 协议,并将 Upgrade HTTP 标头转发到 API 服务器。否则,会显示 Upgrade request required 错误。MigrationController CR 使用 SPDY 在远程 pod 内运行命令。需要 Upgrade HTTP 标头来打开与 API 服务器的 websocket 连接。

直接卷迁移

如果要从代理后面的源集群执行直接卷迁移 (DVM),您必须配置 Stunnel 代理。stunnel 在源和目标集群之间为 TCP 连接创建透明的隧道,而不更改证书。

DVM 只支持一个代理。如果目标集群也位于代理后面,则源集群无法访问目标集群的路由。

先决条件

  • 必须使用在所有集群中具有 cluster-admin 权限的用户登录。

流程

  1. 获取 MigrationController CR 清单:

    $ oc get migrationcontroller <migration_controller> -n openshift-migration
  2. 更新代理参数:

    apiVersion: migration.openshift.io/v1alpha1
    kind: MigrationController
    metadata:
      name: <migration_controller>
      namespace: openshift-migration
    ...
    spec:
      stunnel_tcp_proxy: http://<username>:<password>@<ip>:<port> 1
      httpProxy: http://<username>:<password>@<ip>:<port> 2
      httpsProxy: http://<username>:<password>@<ip>:<port> 3
      noProxy: example.com 4
    1
    用于直接卷迁移的 stunnel 代理 URL。
    2
    用于创建集群外 HTTP 连接的代理 URL。URL 必须是 http
    3
    用于在集群外创建 HTTPS 连接的代理 URL。如果没有指定,则 httpProxy 会同时用于 HTTP 和 HTTPS 连接。
    4
    要排除代理的目标域名、域、IP 地址或其他网络 CIDR 的逗号分隔列表。

    在域前面加 . 来仅匹配子域。例如: .y.com 匹配 x.y.com,但不匹配 y.com。使用 * 可对所有目的地绕过所有代理。如果您扩展了未包含在安装配置中 networking.machineNetwork[].cidr 字段定义的 worker,您必须将它们添加到此列表中,以防止连接问题。

    如果未设置 httpProxy 和 httpsProxy 字段,则此字段将被忽略。

  3. 将清单保存为 migration-controller.yaml
  4. 应用更新的清单:

    $ oc replace -f migration-controller.yaml -n openshift-migration

如需更多信息 ,请参阅配置集群范围代理

5.5. 配置复制存储库

Multicloud 对象网关是受限网络环境唯一支持的选项。

MTC 支持将数据从源集群迁移到目标集群 的文件系统和快照数据复制方法。您可以选择适合于您的环境并受您的存储供应商支持的方法。

5.5.1. 先决条件

  • 所有集群都必须具有对复制存储库的不间断网络访问权限。
  • 如果您将代理服务器与内部托管的复制存储库搭配使用,您必须确保代理允许访问复制存储库。

5.5.2. 配置 Multicloud 对象网关

您可以将 Multicloud 对象网关 (MCG) 配置为 MTC 的 Migration Toolkit for Containers (MTC) 的复制仓库。MCG 是 OpenShift Container Storage 的一个组件。

流程

  1. 使用适当的 OpenShift Container Storage 部署指南来部署 OpenShift Container Storage。
  2. 通过对 NooBaa 自定义资源运行 describe 命令,获取 S3 端点、AWS_ACCESS_KEY_IDAWS_SECRET_ACCESS_KEY

    将 MCG 作为复制存储库添加到 MTC web 控制台中时会需要这些值。

5.5.3. 用于配置复制存储库的其他资源

第 6 章 升级 MTC

您可以使用 Operator Lifecycle Manager 在 OpenShift Container Platform 4.7 上升级 MTC。

您可以通过安装旧的 MTC Operator,在 OpenShift Container Platform 版本 3.7 上将 MTC 升级到 3.11。

重要

如果要从 MTC 版本 1.3 升级到 1.5,您必须执行额外步骤来更新 MigPlan 自定义资源(CR)。

6.1. 在 OpenShift Container Platform 4.7 中升级 MTC

您可以使用 Operator Lifecycle Manager 在 OpenShift Container Platform 4.7 上升级 MTC。

先决条件

  • 您必须以具有 cluster-admin 权限的用户身份登录。

流程

  1. 在 OpenShift Container Platform 控制台中导航至 OperatorsInstalled Operators

    处于待定升级的 operator 会显示 Upgrade available 状态。

  2. Migration Toolkit for Containers Operator
  3. Subscription 标签页。任何需要批准的升级都会在 Upgrade Status 旁边显示。例如:它可能会显示 1 requires approval
  4. 1 requires approval,然后点 Preview Install Plan
  5. 查看列出可用于升级的资源,并点 Approve
  6. 返回 Operators → Installed Operators 页面来监控升级的过程。完成后,状态会变为 SucceededUp to date
  7. Migration Toolkit for Containers Operator
  8. Provided APIs 下,找到 Migration Controller 标题,再点 Create Instance
  9. WorkloadsPods 来验证 MTC pod 正在运行 。

6.2. 在 OpenShift Container Platform 3.7 上将 MTC 升级到 3.11

您可以通过手动安装旧的 MTC Operator,将 OpenShift Container Platform 版本 3.7 上的 MTC 升级到 3.11。

先决条件

  • 您必须以具有 cluster-admin 权限的用户身份登录。
  • 您必须有权访问 registry.redhat.io
  • 必须安装 podman

流程

  1. 使用您的红帽客户门户网站账户登陆到 registry.redhat.io

    $ sudo podman login registry.redhat.io
  2. 为 OpenShift Container Platform 3 版本下载 operator.yml 文件:

    • OpenShift Container Platform 版本 3.7:

      $ sudo podman cp $(sudo podman create \
        registry.redhat.io/rhmtc/openshift-migration-legacy-rhel8-operator:v1.5.1):/operator-3.7.yml ./
    • OpenShift Container Platform 版本 3.9 到 3.11:

      $ sudo podman cp $(sudo podman create \
        registry.redhat.io/rhmtc/openshift-migration-legacy-rhel8-operator:v1.5.1):/operator.yml ./
  3. 替换 MTC Operator:

    $ oc replace --force -f <operator.yml>
  4. migration-operator 部署扩展到 0 以停止部署:

    $ oc scale -n openshift-migration --replicas=0 deployment/migration-operator
  5. migration-operator 部署扩展到 1 以启动部署并应用更改:

    $ oc scale -n openshift-migration --replicas=1 deployment/migration-operator
  6. 验证 migration-operator 是否已升级:

    $ oc -o yaml -n openshift-migration get deployment/migration-operator | grep image: | awk -F ":" '{ print $NF }'
  7. 下载 controller.yml 文件:

    $ sudo podman cp $(sudo podman create \
      registry.redhat.io/rhmtc/openshift-migration-legacy-rhel8-operator:v1.5.1):/controller.yml ./
  8. 创建 migration-controller 对象:

    $ oc create -f controller.yml
  9. 对于 OpenShift Container Platform 版本 3.9 和 3.10,请将 migration-controller 服务帐户的安全上下文约束设置为 anyuid,以启用直接镜像迁移和直接卷迁移:

    $ oc adm policy add-scc-to-user anyuid -z migration-controller -n openshift-migration
  10. 如果您之前已将 OpenShift Container Platform 3 集群添加到 MTC web 控制台,必须在 web 控制台中更新服务帐户令牌,因为升级过程会删除并恢复 openshift-migration 命名空间:

    1. 获取服务帐户令牌:

      $ oc sa get-token migration-controller -n openshift-migration
    2. 在 MTC web 控制台中点 Clusters
    3. 点集群 kebab 旁边的 Options 菜单并选择 Edit
    4. Service account token 字段中输入新服务帐户令牌
    5. 点击 Update cluster,然后点击 Close
  11. 验证 MTC Pod 是否正在运行:

    $ oc get pods -n openshift-migration

6.3. 将 MTC 1.3 升级到 1.5

如果要将 MTC 版本 1.3.x 升级到 1.5,您必须更新运行 MigrationController Pod 的集群中的 MigPlan 自定义资源(CR)清单。

由于 MTC 1.3 中不存在 indirectImageMigrationindirectVolumeMigration 参数,它们在 1.4 版中的默认值会为 false,这意味着启用了直接镜像迁移和直接卷迁移。由于没有满足直接迁移要求,迁移计划无法变为 Ready 状态,除非将这些参数值改为 true

先决条件

  • 您必须以具有 cluster-admin 权限的用户身份登录。

流程

  1. 登录到运行 MigrationController Pod 的集群。
  2. 获取 MigPlan CR 清单:

    $ oc get migplan <migplan> -o yaml -n openshift-migration
  3. 更新以下参数值,并将文件保存为 migplan.yaml

    ...
    spec:
      indirectImageMigration: true
      indirectVolumeMigration: true
  4. 替换 MigPlan CR 清单以应用更改:

    $ oc replace -f migplan.yaml -n openshift-migration
  5. 获取更新的 MigPlan CR 清单以验证更改:

    $ oc get migplan <migplan> -o yaml -n openshift-migration

第 7 章 预迁移检查列表

在使用 Migration Toolkit for Containers(MTC)迁移应用程序工作负载前,请查看以下检查列表。

7.1. 源集群检查列表

  • ❏ 集群满足最低硬件要求
  • ❏ 已安装了正确的旧 MTC Operator 版本:

    • OpenShift Container Platform 版本 3.7 上的 operator-3.7.yml
    • OpenShift 容器平台版本 3.9 到 4.5 的 operator.yml
  • ❏ 所有节点都有一个有效的 OpenShift Container Platform 订阅。
  • ❏ 所有运行一次(run-once)任务都已执行。
  • ❏ 所有环境健康检查都已执行。
  • ❏ 您已通过运行以下命令检查是否有异常配置的处于 Terminating 状态的持久性卷(PV):

    $ oc get pv
  • ❏ 您已通过运行以下命令检查了状态不是 RunningCompleted 的 pod:

    $ oc get pods --all-namespaces | egrep -v 'Running | Completed'
  • ❏ 您已通过运行以下命令来检查有高重启次数的 pod:

    $ oc get pods --all-namespaces --field-selector=status.phase=Running \
      -o json | jq '.items[]|select(any( .status.containerStatuses[]; \
      .restartCount > 3))|.metadata.name'

    即使 pod 处于 Running 状态,具有高的重启次数可能表示底层有问题。

  • ❏ 您已使用以下命令删除旧镜像:

    $ oc adm prune images
  • ❏ 内部 registry 使用支持的存储类型
  • ❏ 仅直接镜像迁移:内部 registry 公开给外部流量。
  • ❏ 您可以将镜像读取和写入到 registry。
  • etcd 集群是健康的。
  • ❏ 源集群中的平均 API 服务器响应时间小于 50 ms。
  • ❏ 集群证书在迁移过程中是有效的
  • ❏ 您已通过运行以下命令检查是否有待处理的证书签名请求:

    $ oc get csr -A | grep pending -i
  • 身份提供程序正在正常工作。

7.2. 目标集群清单

  • ❏ 已安装了 MTC Operator 版本 1.5.1。
  • ❏ 满足所有 MTC 的先决条件
  • ❏ 集群满足特定平台和安装方法(例如在裸机上)的最低硬件要求。
  • ❏ 集群为源集群使用的存储类型定义了存储类,如块卷、文件系统或对象存储。

    注意

    NFS 不需要定义的存储类。

  • ❏ 集群具有访问外部服务(如数据库、源代码存储库、容器镜像 registry 和 CI/CD 工具)的正确网络配置和权限。
  • ❏ 使用集群提供的服务的外部应用程序和服务具有访问集群的正确网络配置和权限。
  • ❏ 满足内部容器镜像所需的依赖项要求。

    如果应用程序使用 OpenShift Container Platform 4.7 不支持的 openshift 命名空间中的内部镜像,您可以使用 podman 手动更新 OpenShift Container Platform 3 镜像流标签

  • ❏ 目标集群和复制存储库有足够的存储空间。
  • 身份提供程序在正常工作。

7.3. 性能检查列表

  • ❏ 迁移网络的最小吞吐量为 10 Gbps。
  • ❏ 集群有足够的资源进行迁移。

    注意

    集群需要额外的内存、CPU 和存储,以便在正常工作负载之上运行迁移。实际的资源要求取决于单个迁移计划中迁移的 Kubernetes 资源数量。您必须在非生产环境中测试迁移,以便估计资源要求。

  • ❏ 节点的内存和 CPU 使用情况是健康的。
  • ❏ 已使用 fio 检查了集群的 etcd 磁盘性能

第 8 章 迁移应用程序

您可以使用 Migration Toolkit for Containers(MTC)web 控制台或命令行来迁移应用程序。

8.1. 迁移先决条件

  • 必须使用在所有集群中具有 cluster-admin 权限的用户登录。

直接镜像迁移

  • 您必须确保源集群的安全内部 registry 被公开。
  • 您必须创建指向公开 registry 的路由。

直接卷迁移

  • 如果您的集群使用代理,您必须配置 Stunnel TCP 代理。

集群

  • 源集群必须升级到最新的 MTC z-stream 版本。
  • 在所有集群中,MTC 版本必须相同。

网络

  • 集群在相互间有无限制的网络访问,并可以访问复制存储库。
  • 如果您复制有 移动 的持久性卷,集群必须具有对远程卷的不受限制的网络访问权限。
  • 您必须在 OpenShift Container Platform 4 集群中启用以下端口:

    • 6443 (API 服务器)
    • 443 (路由)
    • 53 (DNS)
  • 如果使用 TLS,则必须在复制存储库中启用端口 443

持久性卷(PV)

  • PV 必须有效。
  • PV 必须绑定到持久性卷声明。
  • 如果使用快照复制 PV,则需要满足以下额外先决条件:

    • 云供应商必须支持快照。
    • PV 必须具有相同的云供应商。
    • PV 必须位于同一区域。
    • PV 必须具有相同的存储类。

迁移先决条件的其他资源

8.2. 使用 MTC web 控制台迁移应用程序

您可以使用 MTC web 控制台配置集群和复制存储库。然后,您可以创建并运行迁移计划。

8.2.1. 启动 MTC web 控制台

您可以在浏览器中启动 MTC web 控制台。

先决条件

  • MTC web 控制台必须具有到 OpenShift Container Platform Web 控制台的网络访问权限。
  • MTC web 控制台必须具有到 OAuth 授权服务器的网络访问权限。

流程

  1. 登录到已安装 MTC 的 OpenShift Container Platform 集群。
  2. 输入以下命令来获取 MTC web 控制台 URL:

    $ oc get -n openshift-migration route/migration -o go-template='https://{{ .spec.host }}'

    输出类似于以下: https://migration-openshift-migration.apps.cluster.openshift.com

  3. 启动浏览器并进入 MTC web 控制台。

    注意

    如果在安装 MTC 工具套件 Operator 后尝试立即访问 MTC web 控制台,则该控制台可能无法加载,因为 Operator 仍然在配置集群。等待几分钟后重试。

  4. 如果您使用自签名的 CA 证书,则会提示您接受源集群 API 服务器的 CA 证书。网页会引导您接受剩余证书的过程。
  5. 使用 OpenShift Container Platform 的用户名密码进行登陆。

8.2.2. 在 MTC web 控制台中添加集群

您可以在 MTC web 控制台中添加一个集群到 Migration Toolkit for Containers(MTC)web 控制台。

先决条件

  • 如果要使用 Azure 快照复制数据:

    • 您必须为集群指定 Azure 资源组名称。
    • 集群必须位于同一 Azure 资源组中。
    • 集群必须位于同一地理位置。

流程

  1. 登录到集群。
  2. 获取 migration-controller 服务帐户令牌:

    $ oc sa get-token migration-controller -n openshift-migration

    输出示例

    eyJhbGciOiJSUzI1NiIsImtpZCI6IiJ9.eyJpc3MiOiJrdWJlcm5ldGVzL3NlcnZpY2VhY2NvdW50Iiwia3ViZXJuZXRlcy5pby9zZXJ2aWNlYWNjb3VudC9uYW1lc3BhY2UiOiJtaWciLCJrdWJlcm5ldGVzLmlvL3NlcnZpY2VhY2NvdW50L3NlY3JldC5uYW1lIjoibWlnLXRva2VuLWs4dDJyIiwia3ViZXJuZXRlcy5pby9zZXJ2aWNlYWNjb3VudC9zZXJ2aWNlLWFjY291bnQubmFtZSI6Im1pZyIsImt1YmVybmV0ZXMuaW8vc2VydmljZWFjY291bnQvc2VydmljZS1hY2NvdW50LnVpZCI6ImE1YjFiYWMwLWMxYmYtMTFlOS05Y2NiLTAyOWRmODYwYjMwOCIsInN1YiI6InN5c3RlbTpzZXJ2aWNlYWNjb3VudDptaWc6bWlnIn0.xqeeAINK7UXpdRqAtOj70qhBJPeMwmgLomV9iFxr5RoqUgKchZRG2J2rkqmPm6vr7K-cm7ibD1IBpdQJCcVDuoHYsFgV4mp9vgOfn9osSDp2TGikwNz4Az95e81xnjVUmzh-NjDsEpw71DH92iHV_xt2sTwtzftS49LpPW2LjrV0evtNBP_t_RfskdArt5VSv25eORl7zScqfe1CiMkcVbf2UqACQjo3LbkpfN26HAioO2oH0ECPiRzT0Xyh-KwFutJLS9Xgghyw-LD9kPKcE_xbbJ9Y4Rqajh7WdPYuB0Jd9DPVrslmzK-F6cgHHYoZEv0SvLQi-PO0rpDrcjOEQQ

  3. 在 MTC web 控制台中点 Clusters
  4. Add cluster
  5. 填写以下字段:

    • Cluster name:集群名称可包含小写字母(a-z)和数字(0-9)。它不能包含空格或国际字符。
    • URL:指定 API 服务器 URL,例如 https://<www.example.com>:8443
    • Service account token:粘贴 migration-controller 服务帐户令牌。
    • 公开的路由主机到镜像 registry:如果您使用直接镜像迁移,请指定源集群镜像 registry 的公开路由,例如 www.example.apps.cluster.com

      您可以指定一个端口。默认端口为 5000

    • Azure cluster:如果使用 Azure 快照复制数据,您必须选择此选项。
    • Azure resource group:如果选择了 Azure cluster,则会显示此字段。指定 Azure 资源组。
    • 需要 SSL 验证:可选:选择这个选项验证到集群的 SSL 连接。
    • CA bundle file:如果选择了 Require SSL 验证,则会显示此字段。如果您为自签名证书创建了自定义 CA 证书捆绑包文件,请点 Browse,选择 CA 捆绑包文件并上传它。
  6. Add cluster

    集群会出现在 Clusters 列表中。

8.2.3. 在 MTC web 控制台中添加复制存储库

您可以将对象存储作为复制存储库添加到 MTC web 控制台的 Migration Toolkit for Containers (MTC) web 控制台中。

MTC 支持以下存储供应商:

  • Amazon Web Services (AWS) S3
  • 多云对象网关 (MCG)
  • 通用 S3 对象存储,例如 Minio 或 Ceph S3
  • Google Cloud Provider (GCP)
  • Microsoft Azure Blob

先决条件

  • 您必须将对象存储配置为复制存储库。

流程

  1. 在 MTC web 控制台中点 Replication repositories
  2. Add repository
  3. 选择 Storage provider type 并填写以下字段:

    • 用于 S3 供应商的 AWS,包括 AWS 和 MCG:

      • Replication repository name:指定 MTC web 控制台中的复制存储库。
      • S3 bucket name:指定 S3 存储桶的名称。
      • S3 bucket region:指定 S3 存储桶区域。AWS S3 必填。对于某些 S3 供应商是可选的。检查 S3 供应商的产品文档,以获取预期值。
      • S3 端点:指定 S3 服务的 URL,而不是存储桶,例如:https://<s3-storage.apps.cluster.com>。通用 S3 供应商必填。您必须使用 https:// 前缀。
      • S3 provider access key :为 AWS 指定 <AWS_SECRET_ACCESS_KEY>,或者为 MCG 和其他 S3 供应商指定 S3 供应商访问密钥。
      • S3 provider secret access key :为 AWS 指定 <AWS_ACCESS_KEY_ID>,或为 MCG 和其他 S3 供应商指定 S3 provider secret 访问密钥。
      • Require SSL verification:如果您使用的是通用 S3 供应商,则清除此复选框。
      • 如果您为自签名证书创建了自定义 CA 证书捆绑包,点 Browse 并浏览到 Base64 编码的文件。
    • GCP

      • Replication repository name:指定 MTC web 控制台中的复制存储库。
      • GCP bucket name:指定 GCP 存储桶的名称。
      • GCP credential JSON blob:在 credentials-velero 文件中指定字符串。
    • Azure

      • Replication repository name:指定 MTC web 控制台中的复制存储库。
      • Azure resource group:指定 Azure Blob 存储的资源组。
      • Azure storage account name:指定 Azure Blob 存储帐户名称
      • Azure credentials - INI file contents:在 credentials-velero 文件中指定字符串。
  4. Add repository 并等待连接验证。
  5. Close

    新仓库会出现在 Replication repositories 列表中。

8.2.4. 在 MTC web 控制台中创建迁移计划

您可以在 Migration Toolkit for Containers(MTC)web 控制台中创建一个迁移计划。

先决条件

  • 必须使用在所有集群中具有 cluster-admin 权限的用户登录。
  • 您必须确保在所有集群中安装相同的 MTC 版本。
  • 您必须在 MTC web 控制台中添加集群和复制存储库。
  • 如果要使用 move 数据复制方法迁移持久性卷(PV),则源和目标集群必须有对远程卷的不间断网络访问权限。
  • 如果要使用直接镜像迁移,源集群的 MigCluster 自定义资源清单必须指定内部镜像 registry 的公开路由。

流程

  1. 在 MTC web 控制台中点 Migration Plan
  2. Add migration plan
  3. 输入 Plan 名称

    迁移计划名称不能超过 253 个小写字母数字字符(a-z, 0-9),且不能包含空格或下划线(_)。

  4. 选择 Source clusterTarget clusterRepository,然后点 Next
  5. Namespaces 页面中,选择要迁移的项目并点 Next
  6. Persistent volumes 页面中,点每个 PV 的 迁移类型

    • Copy 选项将源集群的 PV 中的数据复制到复制存储库中,然后在目标集群中恢复新创建的具有类似特征的 PV 上的数据。
    • Move 选项从源集群中卸载一个远程卷(例如 NFS),在目标集群上创建一个指向这个远程卷的 PV 资源,然后在目标集群中挂载远程卷。在目标集群中运行的应用程序使用源集群使用的同一远程卷。
  7. Next
  8. Copy options 页面中,为每个 PV 选择 Copy method:

    • 快照复制使用云供应商的快照功能备份和恢复数据。它比 Filesystem copy 要快得多。
    • Filesystem copy 备份源集群中的文件,并在目标集群中恢复它们。

      直接卷迁移需要使用文件系统复制方法。

  9. 您可以选择 Verify copy 来验证使用 Filesystem copy 迁移的数据。数据是通过为每个源文件生成 checksum 并在恢复后检查 checksum 来验证。数据校验可能会显著降低性能
  10. 选择 目标存储类

    如果选择了 Filesystem copy,您可以更改目标存储类。

  11. Next
  12. Migration options 页面上,如果您为源集群指定了公开的镜像 registry 路由,则会选择 Direct 镜像迁移 选项。如果使用 Filesystem copy 迁移数据,Direct PV migration 选项会被选择。

    直接迁移选项将镜像和文件直接从源集群复制到目标集群。这个选项比将源集群的镜像和文件复制到复制存储库,然后再从复制存储库复制到目标集群要快。

  13. Next
  14. 可选:在 Hooks 页中,点 Add Hook 为迁移计划添加 hook。

    hook 运行自定义代码。您可以在单个迁移计划中最多添加四个 hook。每个 hook 在不同的迁移步骤中运行。

    1. 在 web 控制台中输入要显示的 hook 名称。
    2. 如果 hook 是一个 Ansible playbook,请选择 Ansible playbook,然后点 Browse 上传 playbook,或在字段中粘贴 playbook 的内容。
    3. 可选: 如果不使用默认 hook 镜像,请指定 Ansible 运行时镜像。
    4. 如果 hook 不是 Ansible playbook,选择 Custom container image 并指定镜像名称和路径。

      自定义容器镜像可以包含 Ansible playbook。

    5. 选择 Source clusterTarget cluster
    6. 输入 Service account nameService account namespace
    7. 为 hook 选择迁移步骤:

      • preBackup:在应用程序工作负载在源集群中备份前
      • PostBackup:在应用程序工作负载在源集群中备份后
      • preRestore:在目标集群中恢复应用程序工作负载前
      • postRestore:在目标集群中恢复应用程序工作负载后
    8. Add
  15. Finish

    迁移计划显示在 Migration Plan 列表中。

持久性卷复制方法的其他资源

8.2.5. 在 MTC web 控制台中运行迁移计划

您可以使用在 Migration Toolkit for Containers(MTC)web 控制台中创建的迁移计划来 stage 或迁移应用程序和数据。

注意

迁移过程中,在目标集群中,MTC 将迁移的持久性卷(PV)的重新声明策略设置为 Retain

Backup 自定义资源包含一个 PVOriginalReclaimPolicy 注解,用于指示原始重新声明策略。您可以手动恢复迁移 PV 的重新声明策略。

先决条件

MTC web 控制台必须包含以下内容:

  • 处于 Ready 状态的源集群
  • 处于 Ready 状态的目标集群
  • 复制软件仓库
  • 有效的迁移计划

流程

  1. 登录到 MTC web 控制台并点 迁移计划
  2. 点击迁移计划 kebab 旁边的 Options 菜单,然后选择 Stage 将数据从源集群复制到目标集群,而不停止应用程序。

    您可以多次运行 Stage 以减少实际迁移时间。

  3. 当您准备好迁移应用程序工作负载时,迁移计划 kebab 旁边的 Options 菜单并选择 Migrate
  4. 另外,还可以在 Migrate 窗口中选择 Do not stop applications on the source cluster during migration
  5. Migrate
  6. 迁移完成后,在 OpenShift Container Platform web 控制台中确认已成功迁移了应用程序:

    1. HomeProjects
    2. 点迁移的项目查看其状态。
    3. Routes 部分,点击 Location 验证应用程序是否正常运行。
    4. WorkloadsPods 来验证 pod 是否在迁移的命名空间中运行。
    5. StoragePersistent volumes 来验证是否正确置备了已迁移的持久性卷。

第 9 章 高级迁移选项

这部分论述了自动化迁移和修改迁移计划的高级选项。

9.1. MTC 术语

表 9.1. MTC 术语

术语定义

源集群

从中迁移应用程序的集群。

目标集群[1]

将应用程序迁移到的集群。

复制软件仓库

用于在间接迁移过程中复制镜像、卷和 Kubernetes 对象的对象存储,或者用于直接卷迁移或直接镜像迁移期间 Kubernetes 对象的对象存储。

复制存储库必须可以被所有集群访问。

主机集群

运行 migration-controller pod 和 Web 控制台的集群。主机群集通常是目标集群,但这不是必需的。

主机集群不需要公开的 registry 路由来直接迁移镜像。

远程集群

远程集群通常是源集群,但这不是必需的。

远程集群需要一个包含 migration-controller 服务帐户令牌的 Secret 自定义资源。

远程集群需要一个公开的安全 registry 路由来直接迁移镜像。

间接迁移

镜像、卷和 Kubernetes 对象从源集群复制到复制存储库,然后从复制存储库复制到目标集群。

直接卷迁移

持久性卷直接从源集群复制到目标集群。

直接镜像迁移

镜像直接从源集群复制到目标集群。

阶段迁移

在不停止应用程序的情况下,数据将复制到目标集群。

多次运行阶段迁移会缩短迁移的持续时间。

剪切迁移

应用在源集群中停止,其资源迁移到目标集群。

状态迁移

通过将特定的持久性卷声明和 Kubernetes 对象复制到目标集群来迁移应用状态。

回滚迁移

回滚迁移会回滚一个已完成的迁移。

1 在 MTC web 控制台中称为 目标集群

9.2. MTC 工作流

您可以使用 MTC web 控制台或 Kubernetes API 将 Kubernetes 资源、持久性卷数据和内部容器镜像迁移到 OpenShift Container Platform 4.7。

MTC 迁移以下资源:

  • 在迁移计划中指定的命名空间。
  • 命名空间范围的资源:当 MTC 迁移命名空间时,它会迁移与该命名空间关联的所有对象和资源,如服务或 Pod。另外,如果一个资源在命名空间中存在但不在集群级别,这个资源依赖于集群级别存在的另外一个资源,MTC 会迁移这两个资源。

    例如,安全性上下文约束(SCC)是一个存在于集群级别的资源,服务帐户(SA)是存在于命名空间级别的资源。如果 MTC 迁移的命名空间中存在 SA,MTC 会自动找到链接到 SA 的所有 SCC,并迁移这些 SCC。同样,MTC 会迁移链接到命名空间持久性卷的持久性卷声明。

    注意

    根据资源,可能需要手动迁移集群范围的资源。

  • 自定义资源 (CR) 和自定义资源定义 (CRD):MTC 在命名空间级别自动迁移 CR 和 CRD。

使用 MTC Web 控制台迁移应用程序涉及以下步骤:

  1. 在所有集群中安装 MTC Operator。

    您可以在有限的或没有互联网访问的受限环境中为 Containers Operator 安装 Migration Toolkit。源和目标集群必须可以在相互间进行访问,而需要可以访问 registry 的镜像(mirror).

  2. 配置复制存储库,这是 MTC 用来迁移数据的中间对象存储。

    源和目标集群必须有对复制仓库的不受限制的网络访问权限。如果使用代理服务器,您必须将其配置为允许复制仓库和集群间的网络流量。

  3. 在 MTC web 控制台中添加源集群。
  4. 在 MTC web 控制台中添加复制存储库。
  5. 创建迁移计划,包含以下数据迁移选项之一:

    • Copy:MTC 将数据从源集群复制到复制存储库,再从复制存储库把数据复制到目标集群。

      注意

      如果您使用直接镜像迁移或直接卷迁移,则镜像或卷会直接从源集群复制到目标集群。

      迁移 PV 复制
    • Move:MTC 从源集群中卸载一个远程卷(例如 NFS),在目标集群上创建一个指向这个远程卷的 PV 资源,然后在目标集群中挂载远程卷。在目标集群中运行的应用程序使用源集群使用的同一远程卷。远程卷必须可以被源集群和目标集群访问。

      注意

      虽然复制仓库没有出现在此图表中,但迁移需要它。

      迁移 PV 移动
  6. 运行迁移计划,使用以下选项之一:

    • Stage (可选)在不停止应用程序的情况下将数据复制到目标集群。

      Stage 可以多次运行,以便在迁移前将大多数数据复制到目标。这可最小化迁移时间和应用程序的停机时间。

    • Migrate 在源集群中停止应用程序,并在目标集群中重新创建其资源。您可以选择在不停止应用程序的情况下迁移工作负载。
OCP 3 到 4 的应用程序迁移

9.3. 关于 MTC 自定义资源

MTC 会创建以下自定义资源(CR):

migration architecture diagram

20 MigCluster (配置, MTC 集群): 集群定义

20 MigStorage (配置, MTC 集群): 存储定义

20 MigPlan (配置, MTC 集群): 迁移计划

MigPlan CR 描述了要迁移的源和目标集群、复制仓库和命名空间。它与 0 个、1 个或多个 MigMigration CR 关联。

注意

删除 MigPlan CR 会删除关联的 MigMigration CR。

20 BackupStorageLocation (配置, MTC 集群): Velero 备份对象的位置

20 VolumeSnapshotLocation (配置, MTC 集群): Velero 卷快照的位置

20 MigMigration (操作,MTC 集群):Migration,在每次进行 stage 或迁移数据时创建。每个 MigMigration CR 都与 MigPlan CR 关联。

20 Backup (操作,源集群):当运行迁移计划时,MigMigration CR 在每个源集群上创建两个 Velero 备份 CR:

  • 备份 CR #1 用于Kubernetes 对象
  • 备份 CR #2 用于 PV 数据

20 restore(操作,目标集群):当运行迁移计划时,MigMigration CR 在目标集群上创建两个 Velero 恢复 CR:

  • 恢复 CR #1(使用备份 CR #2)用于 PV 数据
  • 恢复 CR #2(使用备份 CR #1)用于 Kubernetes 对象

9.4. MTC 自定义资源清单

MTC 使用以下自定义资源(CR)清单来迁移应用程序。

9.4.1. DirectImageMigration

DirectImageMigration CR 直接将镜像从源集群复制到目标集群。

apiVersion: migration.openshift.io/v1alpha1
kind: DirectImageMigration
metadata:
  labels:
    controller-tools.k8s.io: "1.0"
  name: <direct_image_migration>
spec:
  srcMigClusterRef:
    name: <source_cluster>
    namespace: openshift-migration
  destMigClusterRef:
    name: <destination_cluster>
    namespace: openshift-migration
  namespaces: 1
    - <source_namespace_1>
    - <source_namespace_2>:<destination_namespace_3> 2
1
包含要迁移的镜像的一个或多个命名空间。默认情况下,目标命名空间的名称与源命名空间相同。
2
使用不同名称映射到目标命名空间的源命名空间。

9.4.2. DirectImageStreamMigration

DirectImageStreamMigration CR 直接将镜像流引用从源集群复制到目标集群。

apiVersion: migration.openshift.io/v1alpha1
kind: DirectImageStreamMigration
metadata:
  labels:
    controller-tools.k8s.io: "1.0"
  name: <direct_image_stream_migration>
spec:
  srcMigClusterRef:
    name: <source_cluster>
    namespace: openshift-migration
  destMigClusterRef:
    name: <destination_cluster>
    namespace: openshift-migration
  imageStreamRef:
    name: <image_stream>
    namespace: <source_image_stream_namespace>
  destNamespace: <destination_image_stream_namespace>

9.4.3. DirectVolumeMigration

DirectVolumeMigration CR 直接将持久性卷(PV)从源集群复制到目标集群。

apiVersion: migration.openshift.io/v1alpha1
kind: DirectVolumeMigration
metadata:
  name: <direct_volume_migration>
  namespace: openshift-migration
spec:
  createDestinationNamespaces: false 1
  deleteProgressReportingCRs: false 2
  destMigClusterRef:
    name: <host_cluster> 3
    namespace: openshift-migration
  persistentVolumeClaims:
  - name: <pvc> 4
    namespace: <pvc_namespace>
  srcMigClusterRef:
    name: <source_cluster>
    namespace: openshift-migration
1
设置为 true,为目标集群上的 PV 创建命名空间。
2
设置为 true,以在迁移后删除 DirectVolumeMigrationProgress CR。默认值为 false,保留 DirectVolumeMigrationProgress CR 以进行故障排除。
3
如果目标集群不是主机集群,请更新集群名称。
4
指定要迁移的一个或多个 PVC。

9.4.4. DirectVolumeMigrationProgress

DirectVolumeMigrationProgress CR 显示 DirectVolumeMigration CR 的进度。

apiVersion: migration.openshift.io/v1alpha1
kind: DirectVolumeMigrationProgress
metadata:
  labels:
    controller-tools.k8s.io: "1.0"
  name: <direct_volume_migration_progress>
spec:
  clusterRef:
    name: <source_cluster>
    namespace: openshift-migration
  podRef:
    name: <rsync_pod>
    namespace: openshift-migration

9.4.5. MigAnalytic

MigAnalytic CR 从关联的 MigPlan CR 收集镜像、Kubernetes 资源和持久性卷(PV)容量的数量。

您可以配置它收集的数据。

apiVersion: migration.openshift.io/v1alpha1
kind: MigAnalytic
metadata:
  annotations:
    migplan: <migplan>
  name: <miganalytic>
  namespace: openshift-migration
  labels:
    migplan: <migplan>
spec:
  analyzeImageCount: true 1
  analyzeK8SResources: true 2
  analyzePVCapacity: true 3
  listImages: false 4
  listImagesLimit: 50 5
  migPlanRef:
    name: <migplan>
    namespace: openshift-migration
1
可选:返回镜像数量。
2
可选:返回 Kubernetes 资源的数量、类型和 API 版本。
3
可选:返回 PV 容量。
4
返回镜像名称列表。默认为 false,因此输出不会过长。
5
可选:指定如果 listImagestrue 时要返回的最大镜像名称数。

9.4.6. MigCluster

MigCluster CR 定义一个主机、本地或远程集群。

apiVersion: migration.openshift.io/v1alpha1
kind: MigCluster
metadata:
  labels:
    controller-tools.k8s.io: "1.0"
  name: <host_cluster> 1
  namespace: openshift-migration
spec:
  isHostCluster: true 2
# The 'azureResourceGroup' parameter is relevant only for Microsoft Azure.
  azureResourceGroup: <azure_resource_group> 3
  caBundle: <ca_bundle_base64> 4
  insecure: false 5
  refresh: false 6
# The 'restartRestic' parameter is relevant for a source cluster.
  restartRestic: true 7
# The following parameters are relevant for a remote cluster.
  exposedRegistryPath: <registry_route> 8
  url: <destination_cluster_url> 9
  serviceAccountSecretRef:
    name: <source_secret> 10
    namespace: openshift-config
1
如果 migration-controller pod 没有在这个集群中运行,请更新集群名称。
2
如果为 true,则 migration-controller pod 在此集群中运行。
3
仅 Microsoft Azure:指定资源组。
4
可选:如果您为自签名 CA 证书创建了一个证书捆绑包,且 insecure 参数值为 false,请指定 base64 编码的证书捆绑包。
5
设置为 true 以禁用 SSL 验证。
6
设置为 true 以验证集群。
7
设置为 true,以在创建 Stage pod 后重启源集群中的 Restic pod。
8
远程集群和直接镜像迁移:指定公开的安全 registry 路径。
9
仅远程集群:指定 URL。
10
仅远程集群:指定 Secret CR 的名称。

9.4.7. MigHook

MigHook CR 定义一个迁移 hook,它在迁移的指定阶段运行自定义代码。您可以创建最多四个迁移 hook。每个 hook 在迁移的不同阶段运行。

您可以配置 hook 名称、运行时持续时间、自定义镜像,以及 hook 将运行的集群。

hook 的迁移阶段和命名空间在 MigPlan CR 中配置。

apiVersion: migration.openshift.io/v1alpha1
kind: MigHook
metadata:
  generateName: <hook_name_prefix> 1
  name: <mighook> 2
  namespace: openshift-migration
spec:
  activeDeadlineSeconds: 1800 3
  custom: false 4
  image: <hook_image> 5
  playbook: <ansible_playbook_base64> 6
  targetCluster: source 7
1
可选:此参数的值后附加一个唯一的哈希值,以便每个迁移 hook 都有一个唯一的名称。您不需要指定 name 参数的值。
2
指定迁移 hook 名称,除非指定了 generateName 参数的值。
3
可选:指定 hook 可运行的最大秒数。默认值为 1800
4
如果为 true,则 hook 是一个自定义镜像。自定义镜像可以包括 Ansible,也可以使用不同的编程语言编写。
5
指定自定义镜像,例如 quay.io/konveyor/hook-runner:latest。如果 customtrue,则需要此项。
6
base64 编码的 Ansible playbook.如果 customfalse,则必需。
7
指定要运行 hook 的集群。有效值为 sourcedestination

9.4.8. MigMigration

MigMigration CR 运行一个 MigPlan CR。

您可以配置 Migmigration CR,以运行一个阶段或增量迁移,取消正在进行中的迁移,或回滚已完成的迁移。

apiVersion: migration.openshift.io/v1alpha1
kind: MigMigration
metadata:
  labels:
    controller-tools.k8s.io: "1.0"
  name: <migmigration>
  namespace: openshift-migration
spec:
  canceled: false 1
  rollback: false 2
  stage: false 3
  quiescePods: true 4
  keepAnnotations: true 5
  verify: false 6
  migPlanRef:
    name: <migplan>
    namespace: openshift-migration
1
设置为 true 可取消正在进行中的迁移。
2
设置为 true 以回滚已完成的迁移。
3
设置为 true 以运行暂存迁移。数据会被递增复制,pod 不会在源集群中停止。
4
设置为 true 可在迁移期间停止应用程序。在备份阶段后,源集群中的 pod 被缩减为 0
5
设置为 true 以保留迁移过程中应用的标签和注解。
6
设置为 true,以检查目标集群中迁移的 pod 的状态,并返回处于 Running 状态的 pod 名称。

9.4.9. MigPlan

MigPlan CR 定义迁移计划的参数。

您可以配置目标命名空间、hook 阶段以及直接或间接迁移。

注意

默认情况下,目标命名空间的名称与源命名空间相同。如果配置了一个不同的目标命名空间,您必须确保不会在源或目标集群上重复命名空间,因为在迁移过程中复制了 UID 和 GID 范围。

apiVersion: migration.openshift.io/v1alpha1
kind: MigPlan
metadata:
  labels:
    controller-tools.k8s.io: "1.0"
  name: <migplan>
  namespace: openshift-migration
spec:
  closed: false 1
  srcMigClusterRef:
    name: <source_cluster>
    namespace: openshift-migration
  destMigClusterRef:
    name: <destination_cluster>
    namespace: openshift-migration
  hooks: 2
    - executionNamespace: <namespace> 3
      phase: <migration_phase> 4
      reference:
        name: <hook> 5
        namespace: <hook_namespace> 6
      serviceAccount: <service_account> 7
  indirectImageMigration: true 8
  indirectVolumeMigration: false 9
  migStorageRef:
    name: <migstorage>
    namespace: openshift-migration
  namespaces:
    - <source_namespace_1> 10
    - <source_namespace_2>
    - <source_namespace_3>:<destination_namespace_4> 11
  refresh: false  12
1
如果为 true,则迁移已完成。您不能为此 MigPlan CR 创建另一个 MigMigration CR。
2
可选:最多可指定四个迁移 hook。每个 hook 必须在不同的迁移阶段运行。
3
可选:指定运行 hook 的命名空间。
4
可选:指定 hook 运行期间的迁移阶段。一个 hook 可以分配给一个阶段。有效值为 PreBackupPostBackupPreRestorePostRestore
5
可选:指定 MigHook CR 的名称。
6
可选:指定 MigHook CR 的命名空间。
7
可选:指定一个具有 cluster-admin 权限的服务帐户。
8
如果为 true,则禁用直接镜像迁移。镜像从源集群复制到复制存储库,并从复制存储库复制到目标集群。
9
如果为 true,则禁用直接卷迁移。PV 从源集群复制到复制存储库,再从复制存储库复制到目标集群。
10
指定一个或多个源命名空间。如果只指定源命名空间,则目标命名空间是相同的。
11
如果目标命名空间与源命名空间不同,请指定它。
12
如果为 trueMigPlan CR 会被验证。

9.4.10. MigStorage

MigStorage CR 描述了复制存储库的对象存储。

支持 Amazon Web Services(AWS)、Microsoft Azure、Google Cloud Storage、Multi-Cloud Object Gateway 和通用 S3 兼容云存储。

AWS 和快照复制方法具有额外的参数。

apiVersion: migration.openshift.io/v1alpha1
kind: MigStorage
metadata:
  labels:
    controller-tools.k8s.io: "1.0"
  name: <migstorage>
  namespace: openshift-migration
spec:
  backupStorageProvider: <backup_storage_provider> 1
  volumeSnapshotProvider: <snapshot_storage_provider> 2
  backupStorageConfig:
    awsBucketName: <bucket> 3
    awsRegion: <region> 4
    credsSecretRef:
      namespace: openshift-config
      name: <storage_secret> 5
    awsKmsKeyId: <key_id> 6
    awsPublicUrl: <public_url> 7
    awsSignatureVersion: <signature_version> 8
  volumeSnapshotConfig:
    awsRegion: <region> 9
    credsSecretRef:
      namespace: openshift-config
      name: <storage_secret> 10
  refresh: false 11
1
指定存储供应商。
2
仅快照复制方法:指定存储供应商。
3
仅 AWS:指定存储桶名称。
4
仅 AWS:指定存储桶区域,如 us-east-1
5
指定您为存储创建的 Secret CR 的名称。
6
仅 AWS:如果您使用 AWS 密钥管理服务,请指定该密钥的唯一标识符。
7
仅 AWS:如果授予 AWS 存储桶的公共访问权限,请指定存储桶 URL。
8
仅 AWS:指定向存储桶验证请求的 AWS 签名版本,例如 4
9
仅快照复制方法:指定集群的地理位置。
10
仅快照复制方法:指定您为存储创建的 Secret CR 的名称。
11
设置为 true 以验证集群。

9.5. 使用 MTC API 迁移应用程序

本节论述了如何使用 MTC API 从命令行界面(CLI)迁移应用程序。

9.5.1. 迁移先决条件

  • 必须使用在所有集群中具有 cluster-admin 权限的用户登录。

直接镜像迁移

  • 您必须确保源集群的安全内部 registry 被公开。
  • 您必须创建指向公开 registry 的路由。

直接卷迁移

  • 如果您的集群使用代理,您必须配置 Stunnel TCP 代理。

内部镜像

  • 如果应用程序使用 openshift 命名空间中的内部镜像,您必须确保目标集群中存在所需的镜像版本。

    您可以手动更新镜像流标签,以便在 OpenShift Container Platform 4.7 集群中使用已弃用的 OpenShift Container Platform 3 镜像。

集群

  • 源集群必须升级到最新的 MTC z-stream 版本。
  • 在所有集群中,MTC 版本必须相同。

网络

  • 集群在相互间有无限制的网络访问,并可以访问复制存储库。
  • 如果您复制有 移动 的持久性卷,集群必须具有对远程卷的不受限制的网络访问权限。
  • 您必须在 OpenShift Container Platform 3 集群中启用以下端口:

    • 8443 (API 服务器)
    • 443 (路由)
    • 53 (DNS)
  • 您必须在 OpenShift Container Platform 4 集群中启用以下端口:

    • 6443 (API 服务器)
    • 443 (路由)
    • 53 (DNS)
  • 如果使用 TLS,则必须在复制存储库中启用端口 443

持久性卷(PV)

  • PV 必须有效。
  • PV 必须绑定到持久性卷声明。
  • 如果使用快照复制 PV,则需要满足以下额外先决条件:

    • 云供应商必须支持快照。
    • PV 必须具有相同的云供应商。
    • PV 必须位于同一区域。
    • PV 必须具有相同的存储类。

9.5.2. 创建用于直接镜像迁移的 registry 路由

要直接镜像迁移,您必须在所有远程集群中创建到公开的内部 registry 的路由。

先决条件

  • 内部 registry 必须公开给所有远程集群上的外部流量。

    OpenShift Container Platform 4 registry 默认公开。

    OpenShift Container Platform 3 registry 必须手动公开

流程

  • 要创建到 OpenShift Container Platform 3 registry 的路由,请运行以下命令:

    $ oc create route passthrough --service=docker-registry --port=5000 -n default
  • 要创建到 OpenShift Container Platform 4 registry 的路由,请运行以下命令:

    $ oc create route passthrough --service=image-registry --port=5000 -n openshift-image-registry

9.5.3. 配置代理

对于 OpenShift Container Platform 4.1 及更早的版本,您必须在安装 MTC Operator 的 Migration Toolkit for Containers Operator 后,在 MigrationController 自定义资源(CR)清单中配置代理,因为这些版本不支持集群范围的 代理 对象。

对于 OpenShift Container Platform 4.2 到 4.7,MTC 会继承集群范围的代理设置。如果要覆盖集群范围的代理设置,可以更改代理参数。

您必须将代理配置为允许 SPDY 协议,并将 Upgrade HTTP 标头转发到 API 服务器。否则,会显示 Upgrade request required 错误。MigrationController CR 使用 SPDY 在远程 pod 内运行命令。需要 Upgrade HTTP 标头来打开与 API 服务器的 websocket 连接。

直接卷迁移

如果要从代理后面的源集群执行直接卷迁移 (DVM),您必须配置 Stunnel 代理。stunnel 在源和目标集群之间为 TCP 连接创建透明的隧道,而不更改证书。

DVM 只支持一个代理。如果目标集群也位于代理后面,则源集群无法访问目标集群的路由。

先决条件

  • 必须使用在所有集群中具有 cluster-admin 权限的用户登录。

流程

  1. 获取 MigrationController CR 清单:

    $ oc get migrationcontroller <migration_controller> -n openshift-migration
  2. 更新代理参数:

    apiVersion: migration.openshift.io/v1alpha1
    kind: MigrationController
    metadata:
      name: <migration_controller>
      namespace: openshift-migration
    ...
    spec:
      stunnel_tcp_proxy: http://<username>:<password>@<ip>:<port> 1
      httpProxy: http://<username>:<password>@<ip>:<port> 2
      httpsProxy: http://<username>:<password>@<ip>:<port> 3
      noProxy: example.com 4
    1
    用于直接卷迁移的 stunnel 代理 URL。
    2
    用于创建集群外 HTTP 连接的代理 URL。URL 必须是 http
    3
    用于在集群外创建 HTTPS 连接的代理 URL。如果没有指定,则 httpProxy 会同时用于 HTTP 和 HTTPS 连接。
    4
    要排除代理的目标域名、域、IP 地址或其他网络 CIDR 的逗号分隔列表。

    在域前面加 . 来仅匹配子域。例如: .y.com 匹配 x.y.com,但不匹配 y.com。使用 * 可对所有目的地绕过所有代理。如果您扩展了未包含在安装配置中 networking.machineNetwork[].cidr 字段定义的 worker,您必须将它们添加到此列表中,以防止连接问题。

    如果未设置 httpProxy 和 httpsProxy 字段,则此字段将被忽略。

  3. 将清单保存为 migration-controller.yaml
  4. 应用更新的清单:

    $ oc replace -f migration-controller.yaml -n openshift-migration

9.5.4. 从命令行迁移应用程序

您可以使用 MTC API 从命令行迁移应用程序。

流程

  1. 为主机集群创建一个 MigCluster CR 清单:

    $ cat << EOF | oc apply -f -
    apiVersion: migration.openshift.io/v1alpha1
    kind: MigCluster
    metadata:
      name: <host_cluster>
      namespace: openshift-migration
    spec:
      isHostCluster: true
    EOF
  2. 为每个远程集群创建一个 Secret CR 清单:

    $ cat << EOF | oc apply -f -
    apiVersion: v1
    kind: Secret
    metadata:
      name: <cluster_secret>
      namespace: openshift-config
    type: Opaque
    data:
      saToken: <sa_token> 1
    EOF
    1
    指定远程集群的 base64 编码的 migration-controller 服务帐户(SA)令牌。您可以运行以下命令来获取令牌:
    $ oc sa get-token migration-controller -n openshift-migration | base64 -w 0
  3. 为每个远程集群创建一个 MigCluster CR 清单:

    $ cat << EOF | oc apply -f -
    apiVersion: migration.openshift.io/v1alpha1
    kind: MigCluster
    metadata:
      name: <remote_cluster> 1
      namespace: openshift-migration
    spec:
      exposedRegistryPath: <exposed_registry_route> 2
      insecure: false 3
      isHostCluster: false
      serviceAccountSecretRef:
        name: <remote_cluster_secret> 4
        namespace: openshift-config
      url: <remote_cluster_url> 5
    EOF
    1
    指定远程集群的 Cluster CR。
    2
    可选: 要直接镜像迁移,请指定公开的 registry 路由。
    3
    如果 false 则启用 SSL 验证。如果为 true,则不需要 CA 证书或不检查 CA 证书。
    4
    指定远程集群的 Secret CR。
    5
    指定远程集群的 URL。
  4. 验证所有集群是否处于 Ready 状态:

    $ oc describe cluster <cluster>
  5. 为复制存储库创建 Secret CR 清单:

    $ cat << EOF | oc apply -f -
    apiVersion: v1
    kind: Secret
    metadata:
      namespace: openshift-config
      name: <migstorage_creds>
    type: Opaque
    data:
      aws-access-key-id: <key_id_base64> 1
      aws-secret-access-key: <secret_key_base64> 2
    EOF
    1
    指定 base64 格式的密钥 ID。
    2
    指定 base64 格式的 secret 密钥。

    AWS 凭证默认为 base64 编码。对于其他存储供应商,您必须使用每个密钥运行以下命令来对凭证进行编码:

    $ echo -n "<key>" | base64 -w 0 1
    1
    指定密钥 ID 或 secret 密钥。这两个密钥都必须都是 base64 编码。
  6. 为复制存储库创建一个 MigStorage CR 清单:

    $ cat << EOF | oc apply -f -
    apiVersion: migration.openshift.io/v1alpha1
    kind: MigStorage
    metadata:
      name: <migstorage>
      namespace: openshift-migration
    spec:
      backupStorageConfig:
        awsBucketName: <bucket> 1
        credsSecretRef:
          name: <storage_secret> 2
          namespace: openshift-config
      backupStorageProvider: <storage_provider> 3
      volumeSnapshotConfig:
        credsSecretRef:
          name: <storage_secret> 4
          namespace: openshift-config
      volumeSnapshotProvider: <storage_provider> 5
    EOF
    1
    指定存储桶名称。
    2
    指定对象存储的 Secrets CR。您必须确保存储在对象存储的 Secrets CR 中的凭证是正确的。
    3
    指定存储供应商。
    4
    可选: 如果要使用快照复制数据,请指定对象存储的 Secrets CR。您必须确保存储在对象存储的 Secrets CR 中的凭证是正确的。
    5
    可选: 如果您使用快照复制数据,请指定存储供应商。
  7. 验证 MigStorage CR 是否处于 Ready 状态:

    $ oc describe migstorage <migstorage>
  8. 创建一个 MigPlan CR 清单:

    $ cat << EOF | oc apply -f -
    apiVersion: migration.openshift.io/v1alpha1
    kind: MigPlan
    metadata:
      name: <migplan>
      namespace: openshift-migration
    spec:
      destMigClusterRef:
        name: <host_cluster>
        namespace: openshift-migration
      indirectImageMigration: true 1
      indirectVolumeMigration: true 2
      migStorageRef:
        name: <migstorage> 3
        namespace: openshift-migration
      namespaces:
        - <application_namespace> 4
      srcMigClusterRef:
        name: <remote_cluster> 5
        namespace: openshift-migration
    EOF
    1
    如果为 false,则启用直接镜像迁移。
    2
    如果为 false,则启用直接卷迁移。
    3
    指定 MigStorage CR 实例的名称。
    4
    指定一个或多个源命名空间。默认情况下,目标命名空间具有相同的名称。
    5
    指定源集群 MigCluster 实例的名称。
  9. 验证 MigPlan 实例是否处于 Ready 状态:

    $ oc describe migplan <migplan> -n openshift-migration
  10. 创建一个 MigMigration CR 清单,以启动 MigPlan 实例中定义的迁移:

    $ cat << EOF | oc apply -f -
    apiVersion: migration.openshift.io/v1alpha1
    kind: MigMigration
    metadata:
      name: <migmigration>
      namespace: openshift-migration
    spec:
      migPlanRef:
        name: <migplan> 1
        namespace: openshift-migration
      quiescePods: true 2
      stage: false 3
      rollback: false 4
    EOF
    1
    指定 MigPlan CR 名称。
    2
    如果为 true,则源集群上的 pod 会在迁移前停止。
    3
    如果为 true,则进行阶段(stage)迁移,即在不停止应用程序的情况下复制大多数数据。
    4
    如果为 true,则会回滚到一个已完成的迁移。
  11. 通过观察 MigMigration CR 进度来验证迁移:

    $ oc watch migmigration <migmigration> -n openshift-migration

    输出类似于以下:

    输出示例

    Name:         c8b034c0-6567-11eb-9a4f-0bc004db0fbc
    Namespace:    openshift-migration
    Labels:       migration.openshift.io/migplan-name=django
    Annotations:  openshift.io/touch: e99f9083-6567-11eb-8420-0a580a81020c
    API Version:  migration.openshift.io/v1alpha1
    Kind:         MigMigration
    ...
    Spec:
      Mig Plan Ref:
        Name:       migplan
        Namespace:  openshift-migration
      Stage:        false
    Status:
      Conditions:
        Category:              Advisory
        Last Transition Time:  2021-02-02T15:04:09Z
        Message:               Step: 19/47
        Reason:                InitialBackupCreated
        Status:                True
        Type:                  Running
        Category:              Required
        Last Transition Time:  2021-02-02T15:03:19Z
        Message:               The migration is ready.
        Status:                True
        Type:                  Ready
        Category:              Required
        Durable:               true
        Last Transition Time:  2021-02-02T15:04:05Z
        Message:               The migration registries are healthy.
        Status:                True
        Type:                  RegistriesHealthy
      Itinerary:               Final
      Observed Digest:         7fae9d21f15979c71ddc7dd075cb97061895caac5b936d92fae967019ab616d5
      Phase:                   InitialBackupCreated
      Pipeline:
        Completed:  2021-02-02T15:04:07Z
        Message:    Completed
        Name:       Prepare
        Started:    2021-02-02T15:03:18Z
        Message:    Waiting for initial Velero backup to complete.
        Name:       Backup
        Phase:      InitialBackupCreated
        Progress:
          Backup openshift-migration/c8b034c0-6567-11eb-9a4f-0bc004db0fbc-wpc44: 0 out of estimated total of 0 objects backed up (5s)
        Started:        2021-02-02T15:04:07Z
        Message:        Not started
        Name:           StageBackup
        Message:        Not started
        Name:           StageRestore
        Message:        Not started
        Name:           DirectImage
        Message:        Not started
        Name:           DirectVolume
        Message:        Not started
        Name:           Restore
        Message:        Not started
        Name:           Cleanup
      Start Timestamp:  2021-02-02T15:03:18Z
    Events:
      Type    Reason   Age                 From                     Message
      ----    ------   ----                ----                     -------
      Normal  Running  57s                 migmigration_controller  Step: 2/47
      Normal  Running  57s                 migmigration_controller  Step: 3/47
      Normal  Running  57s (x3 over 57s)   migmigration_controller  Step: 4/47
      Normal  Running  54s                 migmigration_controller  Step: 5/47
      Normal  Running  54s                 migmigration_controller  Step: 6/47
      Normal  Running  52s (x2 over 53s)   migmigration_controller  Step: 7/47
      Normal  Running  51s (x2 over 51s)   migmigration_controller  Step: 8/47
      Normal  Ready    50s (x12 over 57s)  migmigration_controller  The migration is ready.
      Normal  Running  50s                 migmigration_controller  Step: 9/47
      Normal  Running  50s                 migmigration_controller  Step: 10/47

9.6. 迁移 hook

您可以在单个迁移计划中添加最多四个迁移 hook,每个 hook 在迁移过程的不同阶段运行。迁移 hook 执行的任务包括自定义应用程序默认、手动迁移不受支持的数据类型以及在迁移后更新应用程序。

迁移 hook 会在以下迁移步骤之一中,在源或目标集群上运行:

  • PreBackup:在源集群中备份资源前。
  • PostBackup:在源集群中备份资源后。
  • PreRestore:在目标集群上恢复资源前。
  • PostRestore:在目标集群中恢复资源后。

您可以通过创建使用默认 Ansible 镜像运行的 Ansible playbook 或者使用自定义 hook 容器来创建 hook。

Ansible playbook

Ansible playbook 作为一个配置映射挂载到 hook 容器上。hook 容器使用 MigPlan 自定义资源中指定的集群、服务帐户和命名空间以作业的形式运行。作业会继续运行,直到达到默认限制的 6 次重试或成功完成为止。即使初始 pod 被驱除或终止,也会继续。

默认 Ansible 运行时镜像为 registry.redhat.io/rhmtc/openshift-migration-hook-runner-rhel7:1.5。此镜像基于 Ansible Runner 镜像,并包含 Ansible Kubernetes 资源的 python-openshift,以及更新的 oc 二进制文件。

自定义 hook 容器

您可以使用自定义 hook 容器而不是默认的 Ansible 镜像。

9.6.1. 为迁移 hook 编写 Ansible playbook

您可以编写 Ansible playbook 以用作迁移 hook。通过使用 MTC web 控制台或在 MigPlan 自定义资源(CR)清单中指定 spec.hooks 参数的值来在迁移计划中添加 hook。

Ansible playbook 作为一个配置映射挂载到 hook 容器上。hook 容器使用 MigPlan CR 中指定的集群、服务帐户和命名空间以作业的形式运行。hook 容器使用指定的服务帐户令牌,以便当任务在集群中运行前无需进行身份验证。

9.6.1.1. Ansible 模块

您可以使用 Ansible shell 模块来运行 oc 命令。

shell 模块示例

- hosts: localhost
  gather_facts: false
  tasks:
  - name: get pod name
    shell: oc get po --all-namespaces

您可以使用 kubernetes.core 模块(如 k8s_info )与 Kubernetes 资源交互。

k8s_facts 模块示例

- hosts: localhost
  gather_facts: false
  tasks:
  - name: Get pod
    k8s_info:
      kind: pods
      api: v1
      namespace: openshift-migration
      name: "{{ lookup( 'env', 'HOSTNAME') }}"
    register: pods

  - name: Print pod name
    debug:
      msg: "{{ pods.resources[0].metadata.name }}"

在非零退出状态通常不会生成的情况下,可以使用 fail 模块生成一个非零退出状态,以确保可以检测到 hook 的成功或失败。hook 以作业形式运行,hook 的成功或失败状态取决于作业容器的退出状态。

fail 模块示例

- hosts: localhost
  gather_facts: false
  tasks:
  - name: Set a boolean
    set_fact:
      do_fail: true

  - name: "fail"
    fail:
      msg: "Cause a failure"
    when: do_fail

9.6.1.2. 环境变量

MigPlan CR 名称和迁移命名空间作为环境变量传递给 hook 容器。这些变量可使用 lookup 插件访问。

环境变量示例

- hosts: localhost
  gather_facts: false
  tasks:
  - set_fact:
      namespaces: "{{ (lookup( 'env', 'migration_namespaces')).split(',') }}"

  - debug:
      msg: "{{ item }}"
    with_items: "{{ namespaces }}"

  - debug:
      msg: "{{ lookup( 'env', 'migplan_name') }}"

9.7. 配置选项

您可以为 MigPlanMigrationController CR 配置以下选项。

9.7.1. 为大型迁移增加限制

您可以使用 MTC 为大型迁移增加迁移对象和容器资源的限制。

重要

您必须在生产环境中执行迁移前测试这些更改。

流程

  1. 编辑 MigrationController 自定义资源(CR)清单:

    $ oc edit migrationcontroller -n openshift-migration
  2. 更新以下参数:

    ...
    mig_controller_limits_cpu: "1" 1
    mig_controller_limits_memory: "10Gi" 2
    ...
    mig_controller_requests_cpu: "100m" 3
    mig_controller_requests_memory: "350Mi" 4
    ...
    mig_pv_limit: 100 5
    mig_pod_limit: 100 6
    mig_namespace_limit: 10 7
    ...
    1
    指定 MigrationController CR 可用的 CPU 数量。
    2
    指定 MigrationController CR 可用的内存量。
    3
    指定可用于 MigrationController CR 请求的 CPU 单元数。100m 代表 0.1 CPU 单元(100 * 1e-3)。
    4
    指定可用于 MigrationController CR 请求的内存量。
    5
    指定可迁移的持久性卷数量。
    6
    指定可迁移的 pod 数量。
    7
    指定可迁移的命名空间数量。
  3. 创建使用更新的参数验证更改的迁移计划。

    如果您的迁移计划超过 MigrationController CR 限制,则 MTC 控制台在保存迁移计划时会显示警告信息。

9.7.2. 从迁移计划中排除资源

您可以从 MTC 迁移计划中排除资源,如镜像流、持久性卷(PV)或订阅,以便减少迁移的资源负载,或使用其他工具迁移镜像或 PV。

默认情况下,MTC 会排除服务目录资源和 Operator Lifecycle Manager(OLM)资源。这些资源是服务目录 API 组和 OLM API 组的一部分,目前还不支持迁移。

流程

  1. 编辑 MigrationController 自定义资源清单:

    $ oc edit migrationcontroller <migration_controller> -n openshift-migration
  2. 更新 spec 部分,方法是添加参数以排除特定资源,或者在 exclude_resources 参数中添加资源(如果它本身没有排除参数):

    apiVersion: migration.openshift.io/v1alpha1
    kind: MigrationController
    metadata:
      name: migration-controller
      namespace: openshift-migration
    spec:
      disable_image_migration: true 1
      disable_pv_migration: true 2
      ...
      excluded_resources: 3
      - imagetags
      - templateinstances
      - clusterserviceversions
      - packagemanifests
      - subscriptions
      - servicebrokers
      - servicebindings
      - serviceclasses
      - serviceinstances
      - serviceplans
      - operatorgroups
      - events
    1
    添加 disable_image_migration: true 以排除迁移中的镜像流。不要编辑 exclude_resources 参数。当 MigrationController pod 重启时,镜像流会添加到 excluded_resources
    2
    添加 disable_pv_migration: true 以将 PV 排除在迁移计划之外。不要编辑 exclude_resources 参数。当 MigrationController Pod 重启时,persistentvolumespersistentvolumeclaims 会被添加到 excluded_resources。禁用 PV 迁移会同时在创建迁移计划时禁用 PV 发现功能。
    3
    您可以将 OpenShift Container Platform 资源添加到 exclude_resources 列表中。不要删除默认排除的资源。对这些进行迁移可能会产生问题,因此必须被排除。
  3. 等待 2 分钟,使 MigrationController Pod 重启,以便应用更改。
  4. 验证资源是否排除:

    $ oc get deployment -n openshift-migration migration-controller -o yaml | grep EXCLUDED_RESOURCES -A1

    输出包含排除的资源:

    输出示例

        - name: EXCLUDED_RESOURCES
          value:
          imagetags,templateinstances,clusterserviceversions,packagemanifests,subscriptions,servicebrokers,servicebindings,serviceclasses,serviceinstances,serviceplans,imagestreams,persistentvolumes,persistentvolumeclaims

9.7.3. 为直接卷迁移启用持久性卷大小

您可以启用持久性卷(PV)调整直接卷迁移的大小,以避免在目标集群中耗尽磁盘空间。

当 PV 的磁盘用量达到配置级别时,MigrationController 自定义资源(CR)会将持久性卷声明(PVC)的请求存储容量与其实际置备的容量进行比较。然后,它会计算目标集群所需的空间。

pv_resizing_threshold 参数决定何时使用 PV 调整大小。默认阈值是 3%。这意味着,当 PV 的磁盘用量超过 97% 时,PV 会调整大小。您可以提高这个阈值,以便 PV 调整大小在较低的磁盘用量级别上发生。

PVC 容量根据以下标准计算:

  • 如果 PVC 请求的存储容量(spec.resources.requests.storage)不等于实际置备的容量(status.capacity.storage),则会使用较大的值。
  • 如果 PV 通过 PVC 置备,然后更改以便其 PV 和 PVC 容量不再匹配,则会使用较大的值。

先决条件

  • PVC 必须附加到一个或多个正在运行的 pod,以便 MigrationController CR 可以执行命令。

流程

  1. 登录主机集群。
  2. 通过修补 MigrationController CR 来启用 PV 调整大小:

    $ oc patch migrationcontroller migration-controller -p '{"spec":{"enable_dvm_pv_resizing":true}}' \ 1
      --type='merge' -n openshift-migration
    1
    将值设为 false 可禁用 PV 大小调整。
  3. 可选:更新 pv_resizing_threshold 参数以增加阈值:

    $ oc patch migrationcontroller migration-controller -p '{"spec":{"pv_resizing_threshold":41}}' \ 1
      --type='merge' -n openshift-migration
    1
    默认值为 3

    超过阈值时,MigPlan CR 状态中会显示以下状态信息:

    status:
      conditions:
    ...
      - category: Warn
        durable: true
        lastTransitionTime: "2021-06-17T08:57:01Z"
        message: 'Capacity of the following volumes will be automatically adjusted to avoid disk capacity issues in the target cluster:  [pvc-b800eb7b-cf3b-11eb-a3f7-0eae3e0555f3]'
        reason: Done
        status: "False"
        type: PvCapacityAdjustmentRequired
    注意

    对于 AWS gp2 存储,因为 gp2 计算卷用量和大小的方式,这个信息不会出现,除非 pv_resizing_threshold 为 42% 或更高。(BZ#1973148

9.7.4. 启用缓存的 Kubernetes 客户端

您可以在 MigrationController 自定义资源(CR)中启用缓存的 Kubernetes 客户端,以便在迁移过程中提高性能。在位于不同区域的集群之间迁移时,或存在显著的网络延迟时,会显示最大的性能优势。

注意

但是,委派的任务(例如,用于直接卷迁移的 Rsync 备份或 Velero 备份和恢复)并不会显著提高通过缓存的客户端的性能。

缓存的客户端需要额外的内存,因为 MigrationController CR 会缓存与 MigCluster CR 交互所需的所有 API 资源。通常发送到 API 服务器的请求会被定向到缓存。缓存会监视 API 服务器是否有更新。

如果启用了缓存的客户端后发生 OOMKilled 错误,您可以增加 MigrationController CR 的内存限值和请求。

流程

  1. 运行以下命令启用缓存的客户端:

    $ oc -n openshift-migration patch migrationcontroller migration-controller --type=json --patch \
      '[{ "op": "replace", "path": "/spec/mig_controller_enable_cache", "value": true}]'
  2. 可选:运行以下命令来增加 MigrationController CR 内存限值:

    $ oc -n openshift-migration patch migrationcontroller migration-controller --type=json --patch \
      '[{ "op": "replace", "path": "/spec/mig_controller_limits_memory", "value": <10Gi>}]'
  3. 可选:运行以下命令来增加 MigrationController CR 内存请求:

    $ oc -n openshift-migration patch migrationcontroller migration-controller --type=json --patch \
      '[{ "op": "replace", "path": "/spec/mig_controller_requests_memory", "value": <350Mi>}]'

第 10 章 故障排除

本节论述了对 Migration Toolkit for Containers(MTC)进行故障排除的资源。

10.1. 日志和调试工具

本节论述了可用于故障排除的日志和调试工具。

10.1.1. 查看迁移计划资源

您可以使用 MTC web 控制台和命令行界面(CLI)查看迁移计划资源来监控正在运行的迁移或排除迁移失败的问题。

流程

  1. 在 MTC web 控制台中点 Migration Plans
  2. 点迁移计划旁边的 Migrations 编号来查看 Migrations 页面。

    Migrations 页面显示与迁移计划关联的迁移类型,如 StageMigrationRollback

  3. Type 链接查看 Migration 详情页面。
  4. 扩展 Migration resources 以查看迁移资源及其状态。

    注意

    要对失败的迁移进行故障排除,请从失败的高级别资源开始,然后向下级资源组成资源树。

  5. 点击资源 kebab 旁边的 Options 菜单并选择以下选项之一:

    • 复制 oc describe 命令将命令复制到您的剪贴板。

      • 登录相关集群,然后运行命令。

        资源的条件和事件以 YAML 格式显示。

    • 复制 oc logs 命令将命令复制到您的剪贴板。

      • 登录相关集群,然后运行命令。

        如果资源支持日志过滤,则会显示过滤的日志。

    • View JSON 在 Web 浏览器中以 JSON 格式显示资源数据。

      其数据与 oc get <resource> 命令的输出结果相同。

10.1.2. 查看迁移计划日志

您可以查看迁移计划的聚合日志。您可以使用 MTC web 控制台将命令复制到剪贴板中,然后从命令行界面(CLI)运行命令。

该命令显示以下 pod 的过滤日志:

  • Migration Controller
  • Velero
  • Restic
  • Rsync
  • Stunnel
  • 容器镜像仓库(Registry)

流程

  1. 在 MTC web 控制台中点 Migration Plans
  2. 点迁移计划旁边的 Migrations 编号来查看 Migrations 页面。
  3. 在迁移旁边,单击 View logs
  4. 点击 Copy 图标将 oc logs 命令复制到您的剪贴板。
  5. 登录到相关的集群并在 CLI 中输入命令。

    此时会显示迁移计划的聚合日志。

10.1.3. 使用迁移日志读取器

您可以使用迁移日志读取器显示所有迁移日志的过滤视图。

流程

  1. 获取 mig-log-reader pod:

    $ oc -n openshift-migration get pods | grep log
  2. 输入以下命令显示单个迁移日志:

    $ oc -n openshift-migration logs -f <mig-log-reader-pod> -c color 1
    1
    -c plain 选项显示没有颜色的日志。

10.1.4. 使用 must-gather 工具

您可以使用 must-gather 工具来收集 MTC 自定义资源的日志、指标和相关信息。

must-gather 数据必须附加到所有客户案例。

您可以收集 1 小时或 24 小时内的数据,并使用 Prometheus 控制台查看数据。

先决条件

  • 您必须使用具有 cluster-admin 角色的用户登录到 OpenShift Container Platform 集群。
  • 已安装 OpenShift CLI。

流程

  1. 进入要存储 must-gather 数据的目录。
  2. 运行 oc adm must-gather 命令:

    • 为过去几小时收集数据:

      $ oc adm must-gather --image=registry.redhat.io/rhmtc/openshift-migration-must-gather-rhel8:v1.5

      数据被保存为 /must-gather/must-gather.tar.gz。您可以将此文件上传到红帽客户门户网站中的支持问题单中。

    • 为过去 24 小时收集数据:

      $ oc adm must-gather --image= \
        registry.redhat.io/rhmtc/openshift-migration-must-gather-rhel8: \
        v1.5 -- /usr/bin/gather_metrics_dump

      此操作可能需要很长时间。数据保存为 /must-gather/metrics/prom_data.tar.gz。您可以使用 Prometheus 控制台查看此文件。

使用 Prometheus 控制台查看数据

  1. 创建本地 Prometheus 实例:

    $ make prometheus-run

    命令输出 Prometheus URL:

    输出。

    Started Prometheus on http://localhost:9090

  2. 启动 Web 浏览器,再导航到 URL 以使用 Prometheus Web 控制台查看数据。
  3. 查看数据后,删除 Prometheus 实例和数据:

    $ make prometheus-cleanup

10.1.5. 使用 Velero CLI 调试备份和恢复 CR

您可以使用 Velero 命令行界面(CLI)调试 BackupRestore 自定义资源(CR)和迁移部分失败的情况。Velero CLI 在 velero pod 中运行。

10.1.5.1. Velero 命令语法

Velero CLI 命令使用以下语法:

$ oc exec $(oc get pods -n openshift-migration -o name | grep velero) -- ./velero <resource> <command> <resource_id>

您可以在 $(oc get pods -n openshift-migration -o name | grep velero) 中指定 velero-<pod> -n openshift-migration

10.1.5.2. help 命令

Velero help 命令列出所有 Velero CLI 命令:

$ oc exec $(oc get pods -n openshift-migration -o name | grep velero) -- ./velero --help

10.1.5.3. describe 命令

Velero describe 命令提供了与 Velero 资源相关的警告和错误概述信息:

$ oc exec $(oc get pods -n openshift-migration -o name | grep velero) -- ./velero  <resource> describe <resource_id>

示例

$ oc exec $(oc get pods -n openshift-migration -o name | grep velero) -- ./velero backup describe 0e44ae00-5dc3-11eb-9ca8-df7e5254778b-2d8ql

10.1.5.4. logs 命令

Velero logs 命令提供与 Velero 资源关联的日志:

velero <resource> logs <resource_id>

示例

$ oc exec $(oc get pods -n openshift-migration -o name | grep velero) -- ./velero restore logs ccc7c2d0-6017-11eb-afab-85d0007f5a19-x4lbf

10.1.6. 调试部分迁移失败

您可以使用 Velero CLI 检查 Restore 自定义资源(CR)日志来调试部分迁移失败警告消息。

当 Velero 遇到没有导致迁移失败的问题时,会导致迁移部分失败。例如,缺少自定义资源定义(CRD),或者源集群和目标集群的 CRD 版本之间存在冲突,则迁移会完成,但不会在目标集群上创建 CR。

Velero 将问题作为部分失败记录,然后处理 备份 CR 中的其他对象。

流程

  1. 检查 MigMigration CR 的状态:

    $ oc get migmigration <migmigration> -o yaml

    输出示例

    status:
      conditions:
      - category: Warn
        durable: true
        lastTransitionTime: "2021-01-26T20:48:40Z"
        message: 'Final Restore openshift-migration/ccc7c2d0-6017-11eb-afab-85d0007f5a19-x4lbf: partially failed on destination cluster'
        status: "True"
        type: VeleroFinalRestorePartiallyFailed
      - category: Advisory
        durable: true
        lastTransitionTime: "2021-01-26T20:48:42Z"
        message: The migration has completed with warnings, please look at `Warn` conditions.
        reason: Completed
        status: "True"
        type: SucceededWithWarnings

  2. 使用 Velero describe 命令检查 Restore CR 的状态:

    $ oc exec $(oc get pods -n openshift-migration -o name | grep velero) -n openshift-migration -- ./velero restore describe <restore>

    输出示例

    Phase:  PartiallyFailed (run 'velero restore logs ccc7c2d0-6017-11eb-afab-85d0007f5a19-x4lbf' for more information)
    
    Errors:
      Velero:     <none>
      Cluster:    <none>
      Namespaces:
        migration-example:  error restoring example.com/migration-example/migration-example: the server could not find the requested resource

  3. 使用 Velero logs 命令检查 Restore CR 日志:

    $ oc exec $(oc get pods -n openshift-migration -o name | grep velero) -n openshift-migration -- ./velero restore logs <restore>

    输出示例

    time="2021-01-26T20:48:37Z" level=info msg="Attempting to restore migration-example: migration-example" logSource="pkg/restore/restore.go:1107" restore=openshift-migration/ccc7c2d0-6017-11eb-afab-85d0007f5a19-x4lbf
    time="2021-01-26T20:48:37Z" level=info msg="error restoring migration-example: the server could not find the requested resource" logSource="pkg/restore/restore.go:1170" restore=openshift-migration/ccc7c2d0-6017-11eb-afab-85d0007f5a19-x4lbf

    Restore CR 会记录日志错误消息, the server could not find the requested resource,代表迁移部分失败的原因。

10.1.7. 使用 MTC 自定义资源进行故障排除

您可以检查以下 MTC 自定义资源(CR)来排除迁移失败的问题:

  • MigCluster
  • MigStorage
  • MigPlan
  • BackupStorageLocation

    BackupStorageLocation CR 包含一个 migrationcontroller 标签,用于标识创建 CR 的 MTC 实例:

        labels:
          migrationcontroller: ebe13bee-c803-47d0-a9e9-83f380328b93
  • VolumeSnapshotLocation

    VolumeSnapshotLocation CR 包含一个 migrationcontroller 标签,用于标识创建 CR 的 MTC 实例:

        labels:
          migrationcontroller: ebe13bee-c803-47d0-a9e9-83f380328b93
  • MigMigration
  • Backup

    在目标集群中,MTC 将迁移的持久性卷(PV)的重新声明策略设置为 RetainBackup CR 包含 openshift.io/orig-reclaim-policy 注解,用于指示原始重新声明策略。您可以手动恢复迁移 PV 的重新声明策略。

  • 恢复

流程

  1. 列出 openshift-migration 命名空间中的 MigMigration CR:

    $ oc get migmigration -n openshift-migration

    输出示例

    NAME                                   AGE
    88435fe0-c9f8-11e9-85e6-5d593ce65e10   6m42s

  2. 检查 MigMigration CR:

    $ oc describe migmigration 88435fe0-c9f8-11e9-85e6-5d593ce65e10 -n openshift-migration

    输出结果类似以下示例。

MigMigration 示例输出

name:         88435fe0-c9f8-11e9-85e6-5d593ce65e10
namespace:    openshift-migration
labels:       <none>
annotations:  touch: 3b48b543-b53e-4e44-9d34-33563f0f8147
apiVersion:  migration.openshift.io/v1alpha1
kind:         MigMigration
metadata:
  creationTimestamp:  2019-08-29T01:01:29Z
  generation:          20
  resourceVersion:    88179
  selfLink:           /apis/migration.openshift.io/v1alpha1/namespaces/openshift-migration/migmigrations/88435fe0-c9f8-11e9-85e6-5d593ce65e10
  uid:                 8886de4c-c9f8-11e9-95ad-0205fe66cbb6
spec:
  migPlanRef:
    name:        socks-shop-mig-plan
    namespace:   openshift-migration
  quiescePods:  true
  stage:         false
status:
  conditions:
    category:              Advisory
    durable:               True
    lastTransitionTime:  2019-08-29T01:03:40Z
    message:               The migration has completed successfully.
    reason:                Completed
    status:                True
    type:                  Succeeded
  phase:                   Completed
  startTimestamp:         2019-08-29T01:01:29Z
events:                    <none>

Velero 备份 CR #2 示例输出来描述 PV 数据

apiVersion: velero.io/v1
kind: Backup
metadata:
  annotations:
    openshift.io/migrate-copy-phase: final
    openshift.io/migrate-quiesce-pods: "true"
    openshift.io/migration-registry: 172.30.105.179:5000
    openshift.io/migration-registry-dir: /socks-shop-mig-plan-registry-44dd3bd5-c9f8-11e9-95ad-0205fe66cbb6
    openshift.io/orig-reclaim-policy: delete
  creationTimestamp: "2019-08-29T01:03:15Z"
  generateName: 88435fe0-c9f8-11e9-85e6-5d593ce65e10-
  generation: 1
  labels:
    app.kubernetes.io/part-of: migration
    migmigration: 8886de4c-c9f8-11e9-95ad-0205fe66cbb6
    migration-stage-backup: 8886de4c-c9f8-11e9-95ad-0205fe66cbb6
    velero.io/storage-location: myrepo-vpzq9
  name: 88435fe0-c9f8-11e9-85e6-5d593ce65e10-59gb7
  namespace: openshift-migration
  resourceVersion: "87313"
  selfLink: /apis/velero.io/v1/namespaces/openshift-migration/backups/88435fe0-c9f8-11e9-85e6-5d593ce65e10-59gb7
  uid: c80dbbc0-c9f8-11e9-95ad-0205fe66cbb6
spec:
  excludedNamespaces: []
  excludedResources: []
  hooks:
    resources: []
  includeClusterResources: null
  includedNamespaces:
  - sock-shop
  includedResources:
  - persistentvolumes
  - persistentvolumeclaims
  - namespaces
  - imagestreams
  - imagestreamtags
  - secrets
  - configmaps
  - pods
  labelSelector:
    matchLabels:
      migration-included-stage-backup: 8886de4c-c9f8-11e9-95ad-0205fe66cbb6
  storageLocation: myrepo-vpzq9
  ttl: 720h0m0s
  volumeSnapshotLocations:
  - myrepo-wv6fx
status:
  completionTimestamp: "2019-08-29T01:02:36Z"
  errors: 0
  expiration: "2019-09-28T01:02:35Z"
  phase: Completed
  startTimestamp: "2019-08-29T01:02:35Z"
  validationErrors: null
  version: 1
  volumeSnapshotsAttempted: 0
  volumeSnapshotsCompleted: 0
  warnings: 0

Velero 恢复 CR #2 示例输出来描述 Kubernetes 资源

apiVersion: velero.io/v1
kind: Restore
metadata:
  annotations:
    openshift.io/migrate-copy-phase: final
    openshift.io/migrate-quiesce-pods: "true"
    openshift.io/migration-registry: 172.30.90.187:5000
    openshift.io/migration-registry-dir: /socks-shop-mig-plan-registry-36f54ca7-c925-11e9-825a-06fa9fb68c88
  creationTimestamp: "2019-08-28T00:09:49Z"
  generateName: e13a1b60-c927-11e9-9555-d129df7f3b96-
  generation: 3
  labels:
    app.kubernetes.io/part-of: migration
    migmigration: e18252c9-c927-11e9-825a-06fa9fb68c88
    migration-final-restore: e18252c9-c927-11e9-825a-06fa9fb68c88
  name: e13a1b60-c927-11e9-9555-d129df7f3b96-gb8nx
  namespace: openshift-migration
  resourceVersion: "82329"
  selfLink: /apis/velero.io/v1/namespaces/openshift-migration/restores/e13a1b60-c927-11e9-9555-d129df7f3b96-gb8nx
  uid: 26983ec0-c928-11e9-825a-06fa9fb68c88
spec:
  backupName: e13a1b60-c927-11e9-9555-d129df7f3b96-sz24f
  excludedNamespaces: null
  excludedResources:
  - nodes
  - events
  - events.events.k8s.io
  - backups.velero.io
  - restores.velero.io
  - resticrepositories.velero.io
  includedNamespaces: null
  includedResources: null
  namespaceMapping: null
  restorePVs: true
status:
  errors: 0
  failureReason: ""
  phase: Completed
  validationErrors: null
  warnings: 15

用于调试工具的其他资源

10.2. 常见问题和关注

本节介绍在迁移过程中可能导致问题的常见问题。

10.2.1. 更新已弃用的内部镜像

如果应用程序使用 openshift 命名空间中的镜像,则目标集群中必须有所需的镜像版本。

如果 OpenShift Container Platform 4.7 中已弃用 OpenShift Container Platform 3 镜像,您可以使用 podman 手动更新镜像流标签。

先决条件

  • 必须安装 podman
  • 您必须以具有 cluster-admin 权限的用户身份登录。
  • 如果您使用不安全的 registry,请将 registry 主机值添加到 /etc/container/registries.conf[registries.insecure] 部分,以确保 Podman 不会遇到 TLS 验证错误。
  • 内部 registry 必须在源和目标集群上公开。

流程

  1. 确保内部 registry 在 OpenShift Container Platform 3 和 4 集群中公开。

    默认情况下,内部 registry 在 OpenShift Container Platform 4 中公开。

  2. 如果您使用不安全的 registry,请将 registry 主机值添加到 /etc/container/registries.conf[registries.insecure] 部分,以确保 Podman 不会遇到 TLS 验证错误。
  3. 登录到 OpenShift Container Platform 3 registry:

    $ podman login -u $(oc whoami) -p $(oc whoami -t) --tls-verify=false <registry_url>:<port>
  4. 登录到 OpenShift Container Platform 4 registry:

    $ podman login -u $(oc whoami) -p $(oc whoami -t) --tls-verify=false <registry_url>:<port>
  5. 拉取 OpenShift Container Platform 3 镜像:

    $ podman pull <registry_url>:<port>/openshift/<image>
  6. 为 OpenShift Container Platform 4 registry 标记 OpenShift Container Platform 3 镜像:

    $ podman tag <registry_url>:<port>/openshift/<image> \ 1
      <registry_url>:<port>/openshift/<image> 2
    1
    指定 OpenShift Container Platform 3 集群的 registry URL 和端口。
    2
    指定 OpenShift Container Platform 4 集群的 registry URL 和端口。
  7. 将镜像推送到 OpenShift Container Platform 4 registry:

    $ podman push <registry_url>:<port>/openshift/<image> 1
    1
    指定 OpenShift Container Platform 4 集群。
  8. 验证镜像是否具有有效的镜像流:

    $ oc get imagestream -n openshift | grep <image>

    输出示例

    NAME      IMAGE REPOSITORY                                                      TAGS    UPDATED
    my_image  image-registry.openshift-image-registry.svc:5000/openshift/my_image  latest  32 seconds ago

10.2.2. 直接卷迁移未完成

如果直接卷迁移未完成,则目标集群可能没有与源集群相同的 node-selector 注解。

MTC 在迁移命名空间时会保留所有注解,以保持安全性上下文约束和调度要求。在直接卷迁移过程中,MTC 在从源集群迁移的命名空间中在目标集群上创建 Rsync 传输 pod。如果目标集群命名空间没有与源集群命名空间相同的注解,则无法调度 Rsync 传输 pod。Rsync pod 处于 Pending 状态。

您可以执行以下步骤识别并解决这个问题。

流程

  1. 检查 MigMigration CR 的状态:

    $ oc describe migmigration <pod> -n openshift-migration

    输出包括以下状态消息:

    输出示例

    Some or all transfer pods are not running for more than 10 mins on destination cluster

  2. 在源集群中,获取迁移的命名空间的详情:

    $ oc get namespace <namespace> -o yaml 1
    1
    指定迁移的命名空间。
  3. 在目标集群中,编辑迁移的命名空间:

    $ oc edit namespace <namespace>
  4. 将缺少的 openshift.io/node-selector 注解添加到迁移的命名空间中,如下例所示:

    apiVersion: v1
    kind: Namespace
    metadata:
      annotations:
        openshift.io/node-selector: "region=east"
    ...
  5. 再次运行迁移计划。

10.2.3. 错误信息和解决方案

本节论述了您可能会在 Migration Toolkit for Containers(MTC)中遇到的常见错误消息,以及如何解决其底层原因。

10.2.3.1. 首次访问 MTC 控制台时显示的 CA 证书错误

如果 MTC 控制台在您第一次尝试访问它时显示了 CA 证书错误消息,则可能的原因是集群使用了自签名 CA 证书。

进入到错误消息中的 oauth-authorization-server URL 并接受证书。要永久解决这个问题,请安装证书颁发机构(CA)以使其可被信任。

如果在接受 CA 证书后浏览器显示 Unauthorized 信息,请进入 MTC 控制台,然后刷新网页。

10.2.3.2. MTC 控制台中的 OAuth 超时错误

如果 MTC 控制台在接受自签名证书后显示连接超时信息,其原因可能是以下之一:

要确定原因:

  • 使用浏览器 web 检查器检查 MTC 控制台网页。
  • 检查 Migration UI pod 日志中的错误。

10.2.3.3. 由未知颁发机构签名的证书错误

如果您使用自签名证书来保护集群或 MTC 的 Migration Toolkit 的复制仓库的安全,则证书验证可能会失败,并显示以下错误消息: Certificate signed by unknown authority

您可以创建自定义 CA 证书捆绑包文件,并在添加集群或复制存储库时将其上传到 MTC web 控制台。

流程

从远程端点下载 CA 证书,并将其保存为 CA 捆绑包文件:

$ echo -n | openssl s_client -connect <host_FQDN>:<port> \ 1
  | sed -ne '/-BEGIN CERTIFICATE-/,/-END CERTIFICATE-/p' > <ca_bundle.cert> 2
1
指定端点的主机 FQDN 和端口,如 api.my-cluster.example.com:6443
2
指定 CA 捆绑包文件的名称。

10.2.3.4. 在 Velero pod 日志中有备份存储位置错误

如果 Velero Backup 自定义资源包含对不存在的备份存储位置(BSL)的引用,Velero pod 日志可能会显示以下错误消息:

Error checking repository for stale locks

Error getting backup storage location: backupstoragelocation.velero.io \"my-bsl\" not found

您可以忽略这些错误消息。缺少 BSL 不会导致迁移失败。

10.2.3.5. Velero pod 日志中的 Pod 卷备份超时错误

如果因为 Restic 超时造成迁移失败,Velero pod 日志会显示以下错误:

level=error msg="Error backing up item" backup=velero/monitoring error="timed out
waiting for all PodVolumeBackups to complete" error.file="/go/src/github.com/
heptio/velero/pkg/restic/backupper.go:165" error.function="github.com/heptio/
velero/pkg/restic.(*backupper).BackupPodVolumes" group=v1

restic_timeout 的默认值为一小时。您可以为大型迁移增加这个参数值,请注意,高的值可能会延迟返回出错信息。

流程

  1. 在 OpenShift Container Platform web 控制台中导航至 OperatorsInstalled Operators
  2. Migration Toolkit for Containers Operator
  3. MigrationController 标签页中点 migration-controller
  4. YAML 标签页中,更新以下参数值:

    spec:
      restic_timeout: 1h 1
    1
    有效单元是 h (小时)、m (分钟)和 s (秒),例如 3h30m15s
  5. Save

10.2.3.6. MigMigration 自定义资源中的 Restic 验证错误

如果在迁移使用文件系统数据复制方法的持久性卷时数据验证失败,MigMigration CR 会显示以下错误:

MigMigration CR 状态

status:
  conditions:
  - category: Warn
    durable: true
    lastTransitionTime: 2020-04-16T20:35:16Z
    message: There were verify errors found in 1 Restic volume restores. See restore `<registry-example-migration-rvwcm>`
      for details 1
    status: "True"
    type: ResticVerifyErrors 2

1
错误消息指定了 Restore CR 名称。
2
ResticVerifyErrors 是一个包括验证错误的一般错误警告类型。
注意

数据验证错误不会导致迁移过程失败。

您可以检查 Restore CR,以排除数据验证错误。

流程

  1. 登录到目标集群。
  2. 查看 Restore CR:

    $ oc describe <registry-example-migration-rvwcm> -n openshift-migration

    输出会标识出带有 PodVolumeRestore 错误的持久性卷。

    输出示例

    status:
      phase: Completed
      podVolumeRestoreErrors:
      - kind: PodVolumeRestore
        name: <registry-example-migration-rvwcm-98t49>
        namespace: openshift-migration
      podVolumeRestoreResticErrors:
      - kind: PodVolumeRestore
        name: <registry-example-migration-rvwcm-98t49>
        namespace: openshift-migration

  3. 查看 PodVolumeRestore CR:

    $ oc describe <migration-example-rvwcm-98t49>

    输出中显示了记录了这个错误的 Restic pod。

    PodVolumeRestore CR 带有 Restic pod 错误

      completionTimestamp: 2020-05-01T20:49:12Z
      errors: 1
      resticErrors: 1
      ...
      resticPod: <restic-nr2v5>

  4. 查看 Restic pod 日志以查找错误:

    $ oc logs -f <restic-nr2v5>

10.2.3.7. 从启用了 root_squash 的 NFS 存储中迁移时的 Restic 权限错误

如果您要从 NFS 存储中迁移数据,并且启用了 root_squashRestic 会映射到 nfsnobody,且没有执行迁移的权限。Restic pod 日志显示以下错误:

Restic 权限错误

backup=openshift-migration/<backup_id> controller=pod-volume-backup error="fork/exec
/usr/bin/restic: permission denied" error.file="/go/src/github.com/vmware-tanzu/
velero/pkg/controller/pod_volume_backup_controller.go:280" error.function=
"github.com/vmware-tanzu/velero/pkg/controller.(*podVolumeBackupController).processBackup"
logSource="pkg/controller/pod_volume_backup_controller.go:280" name=<backup_id>
namespace=openshift-migration

您可以通过为 Restic 创建补充组并将组 ID 添加到 MigrationController CR 清单来解决这个问题。

流程

  1. 在 NFS 存储上为 Restic 创建补充组。
  2. 在 NFS 目录上设置 setgid 位,以便继承组所有权。
  3. restic_supplemental_groups 参数添加到源和目标集群上的 MigrationController CR 清单:

    spec:
      restic_supplemental_groups: <group_id> 1
    1
    指定补充组 ID。
  4. 等待 Restic pod 重启,以便应用更改。

10.2.4. 已知问题

这个版本有以下已知问题:

  • 在迁移过程中,MTC 会保留以下命名空间注解:

    • openshift.io/sa.scc.mcs
    • openshift.io/sa.scc.supplemental-groups
    • openshift.io/sa.scc.uid-range

      这些注解会保留 UID 范围,确保容器在目标集群中保留其文件系统权限。这可能会存在一定的风险。因为迁移的 UID 可能已存在于目标集群的现有或将来的命名空间中。(BZ#1748440)

  • 大多数集群范围的资源还没有由 MTC 处理。如果应用程序需要集群范围的资源,则可能需要在目标集群上手动创建。
  • 如果迁移失败,则迁移计划不会为静默的 pod 保留自定义 PV 设置。您必须手动回滚,删除迁移计划,并使用 PV 设置创建新的迁移计划。(BZ#1784899)
  • 如果因为 Restic 超时造成大型迁移失败,您可以提高MigrationController CR 清单中的 restic_timeout 参数值(默认为 1h)。
  • 如果您选择了为使用文件系统复制方法迁移的 PV 数据进行验证的选项,则性能会非常慢。
  • 如果您要从 NFS 存储中迁移数据,并且启用了 root_squash,将 Restic 映射为 nfsnobody。迁移失败,Restic Pod 日志中显示权限错误。(BZ#1873641

    您可以通过在 MigrationController CR 清单中添加用于 Restic 的额外组来解决这个问题:

    spec:
    ...
      restic_supplemental_groups:
      - 5555
      - 6666
  • 如果您使用位于不同可用区的节点执行直接卷迁移,则迁移可能会失败,因为迁移的 pod 无法访问 PVC。(BZ#1947487

10.3. 回滚一个迁移

您可以使用 MTC web 控制台或 CLI 回滚迁移。

您还可以手动回滚迁移

10.3.1. 使用 MTC web 控制台回滚迁移

您可以使用 Migration Toolkit for Containers(MTC)web 控制台回滚迁移。

注意

以下资源保留在迁移的命名空间中,以便在直接卷迁移 (DVM) 失败后进行调试:

  • 配置映射(源和目标集群)
  • Secret CR(源和目标集群)
  • Rsync CR(源集群)

这些资源不会影响回滚。您可以手动删除它们。

如果您稍后成功运行相同的迁移计划,则会自动删除失败迁移中的资源。

如果应用程序在迁移失败时停止,您必须回滚迁移,以防止持久性卷中的数据崩溃。

如果应用程序在迁移过程中没有停止,则不需要回滚,因为原始应用程序仍然在源集群中运行。

流程

  1. 在 MTC web 控制台中点 Migration Plan
  2. 点迁移计划 kebab 旁边的 Options 菜单并选择 Rollback
  3. Rollback 并等待回滚完成。

    在迁移计划详情中会显示 Rollback succeeded

  4. 验证源集群的 OpenShift Container Platform Web 控制台中是否成功回滚:

    1. HomeProjects
    2. 点迁移的项目查看其状态。
    3. Routes 部分,点击 Location 验证应用程序是否正常运行。
    4. WorkloadsPods 来验证 pod 是否在迁移的命名空间中运行。
    5. StoragePersistent volumes 确认正确置备了被迁移的持久性卷。

10.3.2. 使用命令行界面回滚迁移

您可以通过从命令行界面创建 MigMigration 自定义资源(CR)来回滚迁移。

注意

以下资源保留在迁移的命名空间中,以便在直接卷迁移 (DVM) 失败后进行调试:

  • 配置映射(源和目标集群)
  • Secret CR(源和目标集群)
  • Rsync CR(源集群)

这些资源不会影响回滚。您可以手动删除它们。

如果您稍后成功运行相同的迁移计划,则会自动删除失败迁移中的资源。

如果应用程序在迁移失败时停止,您必须回滚迁移,以防止持久性卷中的数据崩溃。

如果应用程序在迁移过程中没有停止,则不需要回滚,因为原始应用程序仍然在源集群中运行。

流程

  1. 根据以下示例创建一个 MigMigration CR:

    $ cat << EOF | oc apply -f -
    apiVersion: migration.openshift.io/v1alpha1
    kind: MigMigration
    metadata:
      labels:
        controller-tools.k8s.io: "1.0"
      name: <migmigration>
      namespace: openshift-migration
    spec:
    ...
      rollback: true
    ...
      migPlanRef:
        name: <migplan> 1
        namespace: openshift-migration
    EOF
    1
    指定关联的 MigPlan CR 的名称。
  2. 在 MTC web 控制台中,验证迁移的项目资源是否已从目标集群中移除。
  3. 验证迁移的项目资源是否存在于源集群中,并且应用程序是否正在运行。

10.3.3. 手动回滚迁移

您可以通过删除 stage pod 并取消静止应用程序来手动回滚失败的迁移。

如果您成功运行相同的迁移计划,则会自动删除失败迁移中的资源。

注意

在直接卷迁移失败 (DVM) 后,以下资源会保留在迁移的命名空间中:

  • 配置映射(源和目标集群)
  • Secret CR(源和目标集群)
  • Rsync CR(源集群)

这些资源不会影响回滚。您可以手动删除它们。

流程

  1. 删除所有集群中的 stage pod:

    $ oc delete $(oc get pods -l migration.openshift.io/is-stage-pod -n <namespace>) 1
    1
    MigPlan CR 中指定的命名空间。
  2. 通过将副本扩展到其预迁移编号,在源集群中取消静默应用程序:

    $ oc scale deployment <deployment> --replicas=<premigration_replicas>

    Deployment CR 中的 migration.openshift.io/preQuiesceReplicas 注解显示预迁移副本数:

    apiVersion: extensions/v1beta1
    kind: Deployment
    metadata:
      annotations:
        deployment.kubernetes.io/revision: "1"
        migration.openshift.io/preQuiesceReplicas: "1"
  3. 验证应用程序 pod 是否在源集群中运行:

    $ oc get pod -n <namespace>

10.4. 卸载 MTC 并删除资源

您可以卸载 MTC,并删除其资源来清理集群。

注意

删除 velero CRD 会从集群中移除 Velero。

先决条件

  • 您必须以具有 cluster-admin 权限的用户身份登录。

流程

  1. 删除所有集群中的 MigrationController 自定义资源 (CR):

    $ oc delete migrationcontroller <migration_controller>
  2. 使用 Operator Lifecycle Manager 在 OpenShift Container Platform 4 上卸载 MTC Operator。
  3. 通过删除 Operator CR 清单来卸载 OpenShift Container Platform 3 上的 MTC Operator:

    $ oc delete -f operator.yml
  4. 运行以下命令,删除所有集群中的集群范围资源:

    • migration 自定义资源定义 (CRDs):

      $ oc delete $(oc get crds -o name | grep 'migration.openshift.io')
    • Velero CRD:

      $ oc delete $(oc get crds -o name | grep 'velero')
    • migration 集群角色:

      $ oc delete $(oc get clusterroles -o name | grep 'migration.openshift.io')
    • migration-operator 集群角色:

      $ oc delete clusterrole migration-operator
    • velero 集群角色:

      $ oc delete $(oc get clusterroles -o name | grep 'velero')
    • migration 集群角色绑定:

      $ oc delete $(oc get clusterrolebindings -o name | grep 'migration.openshift.io')
    • migration-operator 集群角色绑定:

      $ oc delete clusterrolebindings migration-operator
    • velero 集群角色绑定:

      $ oc delete $(oc get clusterrolebindings -o name | grep 'velero')

卸载 MTC 的其他资源