OpenShift 的沙盒容器的支持

OpenShift Container Platform 4.10

OpenShift 沙盒容器指南

Red Hat OpenShift Documentation Team

摘要

OpenShift 沙盒容器支持 OpenShift Container Platform 为用户提供对将 Kata Containers 作为额外可选运行时运行的内置支持。

第 1 章 {sandboxed-containers-first} {sandboxed-containers-version} 发行注记

1.1. 关于此版本

本发行注记介绍了 OpenShift 沙盒容器 1.2 和 Red Hat OpenShift Container Platform 4.10 的开发。

此功能以前在 OpenShift Container Platform 4.9 中作为技术预览功能提供,现在在 OpenShift Container Platform 4.10 中正式发布并启用。

1.2. 新功能及功能增强

此发行版本在 OpenShift 沙盒容器中添加以下功能。

1.2.1. Kata 特定指标和仪表板

OpenShift 沙盒容器 Operator 现在部署 osc-monitor 守护进程集。这可让特定于沙盒容器中运行的工作负载的指标集合,包括有关虚拟机监控程序和客户机操作系统实例的指标。另外,预先配置的仪表板提供了对 OpenShift 沙盒容器组件的深入了解,如集群中启用的轻量级虚拟机总数,以及每个虚拟机的 CPU 和内存消耗。Web 控制台中提供了所有指标以及仪表板。如需更多信息,请参阅监控 OpenShift 沙盒容器

1.2.2. 增强的日志

管理员现在可以为 OpenShift 沙盒容器运行时组件收集增强的日志。当 CRI-O 日志级别设置为 debug 时,可以使用增强的日志。这些日志由 must-gather 工具收集,也可以在节点日志中查看。如需更多信息,请参阅为 OpenShift 沙盒容器启用调试日志

1.2.3. 检查节点资格以运行 OpenShift 沙盒容器

管理员现在可以检查集群节点运行 OpenShift 沙盒容器的条件。此功能使用 Node Feature Discovery (NFD) Operator 来检测节点功能。有资格的节点使用 feature.node.kubernetes.io/runtime.kata 标记,OpenShift 沙盒容器 Operator 会使用此标签来选择 candidate 节点进行安装。

管理员必须部署 NFD Operator 来使用此功能,创建特定的 NodeFeatureDiscovery 自定义资源,并在创建 KataConfig 自定义资源时启用 checkNodeEligibility。如需更多信息,请参阅检查集群节点以运行 OpenShift 沙盒容器

1.2.4. OpenShift 沙盒容器与 OpenShift Virtualization 兼容

现在,当虚拟机正确配置时,用户可以在带有 OpenShift Virtualization 的集群中运行 OpenShift 沙盒容器。如需更多信息,请参阅在 OpenShift Virtualization 中使用 OpenShift 沙盒容器

1.2.5. AWS 裸机上的 OpenShift 沙盒容器可用性(技术预览)

用户现在可以在 AWS 裸机集群中安装 OpenShift 沙盒容器。这个功能只是一个技术预览,且不被支持。如需更多信息,请参阅了解 OpenShift 沙盒容器

1.3. 程序错误修复

  • 在以前的版本中,因为缺少内核模块,无法在沙盒容器中使用 loop 设备。在这个版本中,这些内核模块包含在软件包中。(KATA-1334)
  • 在以前的版本中,Operator 创建用于跟踪安装 Kata 运行时的节点的 MachineConfigPool (MCP)对象不会在删除 KataConfig 自定义资源 (CR) 时自动删除。在这个版本中,删除 KataConfig CR 会导致删除 kata-oc MCP 对象。(KATA-1184)
  • 在以前的版本中,当您创建 kataConfigPoolSelector 字段并更改了它时,OpenShift 沙盒容器 Operator 不会应用更改。在这个版本中,Operator 的行为会更改自定义资源定义中的 kataConfigPoolSelector 字段,并相应地在节点上安装运行时。(KATA-1190)
  • 在以前的版本中,web 控制台中会显示 SourceImage 字段,使用字段对安装没有影响。在这个版本中,从 web 控制台创建 KataConfig CR 时,未使用的 SourceImage 字段将不再显示。(KATA-1015)

1.4. 已知问题

  • 如果使用 OpenShift 沙盒容器,您可能会在访问 OpenShift Container Platform 集群中从 hostPath 卷挂载的文件或目录时收到 SELinux 拒绝。即使运行特权沙盒容器,这些拒绝也会发生,因为特权沙盒容器不会禁用 SELinux 检查。

    在默认情况下,主机上的 SELinux 策略会保证主机文件系统完全与沙盒工作负载隔离,并提供对 virtiofsd 守护进程或 QEMU 中潜在的安全漏洞的更强的保护。

    如果挂载的文件或目录在主机上没有特定的 SELinux 要求,您可以使用本地持久性卷作为替代方案。文件会自动重新标记为 container_file_t,遵循 SELinux 容器运行时。如需更多信息,请参阅使用本地卷的持久性存储

    挂载文件或目录时,自动重新标记不是选项,则主机上应该具有特定的 SELinux 标签。相反,您可以在主机上设置自定义 SELinux 规则,以允许 virtiofsd 守护进程访问这些特定标签。(BZ#1904609

  • 您可能会遇到 Machine Config Operator (MCO) pod 变为 CrashLoopBackOff 状态的问题,pod 的 openshift.io/scc 注解会显示 sandboxed-containers-operator-scc 而不是默认的 hostmount-anyuid 值。

    如果发生了这种情况,将 sandboxed-containers-operator-scc SCC 中的 seLinuxOptions 策略临时改为不太严格的 RunAsAny,以便准入进程会首选 hostmount-anyuid SCC 而不是它。

    1. 运行以下命令来更改 seLinuxOptions 策略:

      $ oc patch scc sandboxed-containers-operator-scc --type=merge --patch '{"seLinuxContext":{"type": "RunAsAny"}}'
    2. 运行以下命令重启 MCO pod:

      $ oc scale deployments/machine-config-operator -n openshift-machine-config-operator --replicas=0
      $ oc scale deployments/machine-config-operator -n openshift-machine-config-operator --replicas=1
    3. 运行以下命令,将 sandboxed-containers-operator-sccseLinuxOptions 策略恢复到其原始 MustRunAs 值:

      $ oc patch scc sandboxed-containers-operator-scc --type=merge --patch '{"seLinuxContext":{"type": "MustRunAs"}}'
    4. 运行以下命令,验证 hostmount-anyuid SCC 是否已应用到 MCO pod:

      $ oc get pods -n openshift-machine-config-operator -l k8s-app=machine-config-operator -o yaml | grep scc
      openshift.io/scc: hostmount-anyuid

      (BZ#2057545)

  • 使用容器 CPU 资源限值的 OpenShift 沙盒容器 Operator pod 来增加 pod 可用的 CPU 数量可能比请求的 CPU 少。如果功能在容器中可用,您可以使用 oc rsh <pod> 并运行 lscpu 命令诊断 CPU 资源。

    $ lscpu

    输出示例

    CPU(s):                          16
    On-line CPU(s) list:             0-12,14,15
    Off-line CPU(s) list:            13

    可用的离线 CPU 列表可能会更改为以无法预计的方式运行。

    作为临时解决方案,您可以使用 pod 注解来请求额外 CPU 而不是设置 CPU 限值。分配处理器的方法不同,由 pod 注解请求的 CPU 不受此问题的影响。以下注解必须添加到 pod 的元数据中,而不是设置 CPU 限制:

    metadata:
      annotations:
        io.katacontainers.config.hypervisor.default_vcpus: "16"

    (KATA-1376)

  • 运行时安装的进度显示在 kataConfig CR 的 status 部分中。但是,如果所有以下条件都满足,则不会显示进度:

    • 集群有一个没有成员的机器配置池 worker (machinecount=0)。
    • 没有指定 kataConfigPoolSelector 来选择要安装的节点。

    在这种情况下,安装会在 master 节点上启动,因为 Operator 假设节点具有 master 和 worker 角色。kataConfig CR 的 status 部分在安装过程中不会更新。(KATA-1017)

  • 在创建 KataConfig CR 并在 openshift-sandboxed-containers-operator 命名空间中观察 pod 状态时,会显示大量监控 pod 的重启。monitor pod 使用作为 sandboxed-containers 扩展安装的一部分安装的特定 SELinux 策略。监控 pod 会立即创建,但 SELinux 策略还不可用,这会导致 pod 创建错误,然后 pod 重启。当扩展安装成功时,SELinux 策略可用,监控 pod 过渡到 Running 状态。这不会影响任何 OpenShift 沙盒容器 Operator 功能。(KATA-1338)

1.5. 异步勘误更新

OpenShift 沙盒容器 1.2 的安全更新、程序错误修正、功能增强更新将会通过红帽网络以异步勘误的形式发布。所有 OpenShift Container Platform 4.10 勘误都可以通过红帽客户门户网站获得OpenShift Container Platform 生命周期包括了详细的与异步勘误相关的内容。

红帽客户门户网站的用户可以在红帽订阅管理(RHSM)帐户设置中启用勘误通知功能。当勘误通知被启用后,用户会在有与其注册的系统相关的勘误发行时接收到电子邮件通知。

注意

用户的红帽客户门户网站账户需要有注册的系统,以及使用 OpenShift Container Platform 的权限才可以接收到 OpenShift Container Platform 的勘误通知。

本节的内容将会持续更新,以提供以后发行的与 OpenShift 沙盒容器 1.2相关的异步勘误信息。

1.5.1. RHSA-2022:1508 - OpenShift 沙盒容器 1.2.2 程序错误修复更新公告。

发布日期: 2022 年 7 月 26 日

OpenShift 沙盒容器版本 1.2.2 现已正式发布。此公告包含 OpenShift 沙盒容器的更新,并包括了相关的程序漏洞修复。

其程序错误修正列表包括在 RHSA-2022:5725 公告中。

1.5.2. RHSA-2022:1508 - OpenShift 沙盒容器 1.2.1 程序错误修复更新。

发布日期: 2022 年 4 月 21 日

OpenShift 沙盒容器发行版本 1.2.1 现已正式发布。此公告包含 OpenShift 沙盒容器的更新,并包括了相关的程序漏洞修复。

其程序错误修正列表包括在 RHSA-2022:1508 公告中。

1.5.3. RHSA-2022:0855 - OpenShift 沙盒容器 1.2.0 镜像发行版本、安全更新、程序错误修正和增强公告。

发布日期:2022 年 3 月 14 日

OpenShift 沙盒容器版本 1.2.0 现已正式发布。此公告包含 OpenShift 沙盒容器的更新,它带有功能增强、安全更新和程序错误修复。

其程序错误修正列表包括在 RHSA-2022:0855 公告中。

第 2 章 了解 OpenShift 沙盒容器

OpenShift 沙盒容器支持 OpenShift Container Platform 为您提供了将 Kata Containers 作为额外可选运行时运行的内置支持。新的运行时支持专用虚拟机 (VM) 中的容器,从而改进了工作负载隔离。这对执行以下任务特别有用:

运行特权或不受信任的工作负载

OpenShift 沙盒容器 (OSC) 使得可以安全地运行需要特定特权的工作负载,而无需通过运行特权容器来破坏集群节点的风险。需要特殊权限的工作负载包括:

  • 需要内核的特殊功能的工作负载,除了标准容器运行时(如 CRI-O)授予的默认功能外,例如访问低级别网络功能。
  • 需要提高 root 特权的工作负载,例如访问特定物理设备。使用 OpenShift 沙盒容器时,只能将特定的设备传递给虚拟机,确保工作负载无法访问或错误配置系统的其余部分。
  • 用于安装或使用 set-uid root 二进制文件的工作负载。这些二进制文件授予特殊权限,因此可能会造成安全风险。使用 OpenShift 沙盒容器时,对虚拟机有额外的权限,不授予对集群节点的特殊访问权限。

有些工作负载可能需要专门用于配置集群节点的权限。此类工作负载应该仍然使用特权容器,因为在虚拟机上运行可能会阻止它们正常工作。

确保每个工作负载的内核隔离
OpenShift 沙盒容器支持需要自定义内核调整(如 sysctl、调度程序更改或缓存调整)以及创建自定义内核模块(如 out of tree 或特殊参数)的工作负载。
在租户间共享相同的工作负载
OpenShift 沙盒容器允许您支持来自共享同一 OpenShift 集群的不同组织的多个用户(租户)。该系统还允许您从多个供应商运行第三方工作负载,如容器网络功能 (CNF) 和企业应用程序。例如,第三方 CNF 可能不希望其自定义设置与数据包调整或由其他应用程序设置的 sysctl 变量干扰。在完全隔离的内核内运行有助于防止"邻居噪音"配置问题。
确保正确隔离和沙盒测试软件
您可以使用 OpenShift 沙盒容器来运行具有已知漏洞的容器化工作负载,或者处理传统应用程序中的问题。通过这种隔离,管理员可以为开发人员提供对 pod 的管理控制,这在开发人员想要测试或验证管理员通常授权的配置时很有用。例如,管理员可以安全地将内核数据包过滤 (eBPF) 委派给开发人员。内核数据包过滤需要 CAP_ADMINCAP_BPF 权限,因此不允许在标准 CRI-O 配置下,因为这会授予容器主机 worker 节点上的每个进程的访问权限。类似地,管理员可以授予对 SystemTap 等入侵工具的访问权限,或者支持在开发期间加载自定义内核模块。
确保通过虚拟机边界的默认资源控制
默认情况下,CPU、内存、存储或网络等资源以 OpenShift 沙盒容器中的更加强大和安全的方式进行管理。由于 OpenShift 沙盒容器部署到虚拟机上,因此额外的隔离层和安全性可为资源提供更精细的访问控制。例如,错误容器将无法分配超过虚拟机可用内存更多的内存。相反,需要专用访问网卡或磁盘的容器可以完全控制该设备,而无需访问其他设备。

2.1. OpenShift 沙盒容器支持的平台

您可以在裸机服务器或 Amazon Web Services (AWS) 裸机实例上安装 OpenShift 沙盒容器。不支持由其他云提供商提供的裸机实例。

Red Hat Enterprise Linux CoreOS (RHCOS) 是 OpenShift 沙盒容器唯一支持的操作系统。OpenShift 沙盒容器 1.2 在 Red Hat Enterprise Linux CoreOS (RHCOS) 8.6 上运行。

OpenShift 沙盒容器 1.2 与 OpenShift Container Platform 4.11 兼容。

重要

在 AWS 裸机实例上安装 OpenShift 沙盒容器只是一个技术预览功能。技术预览功能不受红帽产品服务等级协议(SLA)支持,且功能可能并不完整。红帽不推荐在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。

有关红帽技术预览功能支持范围的更多信息,请参阅技术预览功能支持范围

2.2. OpenShift 沙盒容器常用术语

以下是整个文档中所使用的术语:

Sandbox

沙盒(sandbox)是一种隔离的环境,程序可以在其中运行。在沙盒中,您可以运行未经测试或不受信任的程序,而不影响到主机机器或操作系统。

在 OpenShift 沙盒容器环境中,沙盒通过使用虚拟化在不同的内核中运行工作负载来实现,从而增强了对在同一主机上运行的多个工作负载之间的交互的控制。

Pod

pod 是继承自 Kubernetes 和 OpenShift Container Platform 的构造。它代表了可以部署容器的资源。容器在 pod 内运行,pod 用于指定可以在多个容器之间共享的资源。

在 OpenShift 沙盒容器上下文中,pod 被实施为一个虚拟机。多个容器可以在同一虚拟机上在同一 pod 中运行。

OpenShift 沙盒容器 Operator

Operator 是一个软件组件,可自动执行一般需要人工在系统上执行的操作。

OpenShift 沙盒容器 Operator 的任务是管理集群上沙盒容器的生命周期。您可以使用 OpenShift 沙盒容器 Operator 来执行任务,如安装和删除沙盒容器、软件更新和状态监控。

Kata 容器
Kata 容器是一个上游核心项目,用于构建 OpenShift 沙盒容器。OpenShift 沙盒容器将 Kata 容器与 OpenShift Container Platform 集成。
KataConfig
KataConfig 对象代表沙盒容器的配置。它们存储有关集群状态的信息,如部署软件的节点。
运行时类
RuntimeClass 对象用于描述可以使用哪个运行时来运行给定工作负载。OpenShift 沙盒容器 Operator 安装和部署了名为 kata 的运行时类。运行时类包含有关运行时的信息,用于描述运行时需要运行的资源,如 pod 开销

2.3. OpenShift 沙盒容器工作负载管理

OpenShift 沙盒容器提供以下功能以增强工作负载管理和分配:

2.3.1. OpenShift 沙盒容器构建块

OpenShift 沙盒容器 Operator 封装了来自 Kata 容器的所有组件。它管理安装、生命周期和配置任务。

OpenShift 沙盒容器 Operator 以 Operator 捆绑包格式打包为两个容器镜像。捆绑包镜像包含元数据,这是使 operator OLM 就绪所必需的。第二个容器镜像包含监控和管理 KataConfig 资源的实际控制器。

2.3.2. RHCOS 扩展

OpenShift 沙盒容器 Operator 基于 Red Hat Enterprise Linux CoreOS(RHCOS)扩展概念。Red Hat Enterprise Linux CoreOS(RHCOS)扩展是安装可选 OpenShift Container Platform 软件的一种机制。OpenShift 沙盒容器 Operator 使用此机制在集群中部署沙盒容器。

沙盒容器 RHCOS 扩展包含用于 Kata、QEMU 及其依赖项的 RPM。您可以使用 Machine Config Operator 提供的 MachineConfig 资源启用它们。

2.3.3. 虚拟化和 OpenShift 沙盒容器

您可以在带有 OpenShift Virtualization 的集群上使用 OpenShift 沙盒容器。

要同时运行 OpenShift Virtualization 和 OpenShift 沙盒容器,您必须启用虚拟机迁移的虚拟机,以便不阻止节点重启。在虚拟机上配置以下参数:

  • 使用 ocs-storagecluster-ceph-rbd 作为存储类。
  • 在虚拟机中将 evictionStrategy 参数设置为 LiveMigrate

2.4. 了解合规性及风险管理

OpenShift 沙盒容器可以在启用了 FIPS 的集群中使用。

在 FIPS 模式下运行时,OpenShift 沙盒容器组件、虚拟机和虚拟机镜像会根据 FIPS 进行调整。

FIPS 合规性是高安全性环境中所需的最重要的组件之一,可确保节点上只允许使用支持的加密技术。

重要

要为集群启用 FIPS 模式,您必须从配置为以 FIPS 模式操作的 Red Hat Enterprise Linux (RHEL) 计算机运行安装程序。有关在 RHEL 中配置 FIPS 模式的更多信息,请参阅在 FIPS 模式中安装该系统。只有在 x86_64 架构的 OpenShift Container Platform 部署中才支持使用 FIPS 验证或Modules in Process 加密库。

要了解红帽对 OpenShift Container Platform 合规框架的观点,请参阅 OpenShift 安全性指南手册中的“风险管理和法规就绪状态”一章。

第 3 章 部署 OpenShift 沙盒容器工作负载

您可以使用 Web 控制台或 OpenShift CLI(oc)安装 OpenShift 沙盒容器 Operator。安装 OpenShift 沙盒容器 Operator 之前,您必须准备 OpenShift Container Platform 集群。

3.1. 先决条件

在安装 OpenShift 沙盒容器前,请确保 OpenShift Container Platform 集群满足以下要求:

  • 集群必须使用 Red Hat Enterprise Linux CoreOS (RHCOS) worker 在内部裸机基础架构上安装。您可以使用任何安装方法,包括用户置备、安装程序置备或协助的安装程序来部署集群。

    注意
    • OpenShift 沙盒容器仅支持 RHCOS worker 节点。不支持 RHEL 节点。
    • 不支持嵌套虚拟化。
  • 您可以在 Amazon Web Services (AWS) 裸机实例上安装 OpenShift 沙盒容器。不支持由其他云提供商提供的裸机实例。

    重要

    在 AWS 裸机实例上安装 OpenShift 沙盒容器只是一个技术预览功能。技术预览功能不受红帽产品服务等级协议(SLA)支持,且功能可能并不完整。红帽不推荐在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。

    有关红帽技术预览功能支持范围的更多信息,请参阅技术预览功能支持范围

3.1.1. OpenShift 沙盒容器的资源要求

OpenShift 沙盒容器允许用户在沙盒运行时 (Kata) 中的 OpenShift Container Platform 集群中运行工作负载。每个 pod 由一个虚拟机(VM)表示。每个虚拟机都在 QEMU 进程中运行,并托管一个 kata-agent 进程,它充当管理容器工作负载的监管程序,以及这些容器中运行的进程。两个额外的进程会增加开销:

  • containerd-shim-kata-v2 用于与 pod 通信。
  • virtiofsd 代表客户机处理主机文件系统访问。

每个虚拟机都配置有默认内存量。对于明确请求内存的容器,额外的内存会被热插到虚拟机中。

在没有内存资源的情况下运行的容器会消耗可用内存,直到虚拟机使用的总内存达到默认分配。客户机及其 I/O 缓冲区也消耗内存。

如果容器被授予特定数量的内存,那么该内存会在容器启动前热插到虚拟机中。

当指定内存限制时,如果消耗的内存超过限制,工作负载将被终止。如果没有指定内存限制,则虚拟机中运行的内核可能会耗尽内存。如果内核内存不足,它可能会终止虚拟机上的其他进程。

默认内存大小

下表列出了资源分配的一些默认值。

资源

默认为虚拟机分配的内存

2Gi

启动时客户机 Linux 内核内存使用

~110Mi

QEMU 进程使用的内存(虚拟机内存除外)

~30Mi

virtiofsd 进程使用的内存(虚拟机 I/O 缓冲区除外)

~10Mi

containerd-shim-kata-v2 进程使用的内存

~20Mi

在 Fedora 上运行 dnf install 后的文件缓冲区缓存数据

~300Mi* [1]

文件缓冲区会出现并在多个位置考虑:

  • 在客户机中它被显示为文件缓冲缓存。
  • 在映射允许的用户空间文件 I/O 操作的 virtiofsd 守护进程中。
  • 在 QEMU 进程中作为客户机内存。
注意

内存使用率指标正确考虑内存用量总量,该指标仅计算该内存一次。

Pod 开销描述了节点上 pod 使用的系统资源量。您可以使用 oc describe runtimeclass kata 获取 Kata 运行时的当前 pod 开销,如下所示。

示例

$ oc describe runtimeclass kata

输出示例

kind: RuntimeClass
apiVersion: node.k8s.io/v1
metadata:
  name: kata
overhead:
  podFixed:
    memory: "500Mi"
    cpu: "500m"

您可以通过更改 RuntimeClassspec.overhead 字段来更改 pod 开销。例如,如果您为容器运行的配置消耗 QEMU 进程和客户机内核数据的 350Mi 内存,您可以更改 RuntimeClass 开销来满足您的需要。

注意

红帽支持指定的默认开销值。不支持更改默认开销值,这可能会导致技术问题。

在客户机中执行任何类型的文件系统 I/O 时,将在客户机内核中分配文件缓冲区。文件缓冲区也在主机上的 QEMU 进程以及 virtiofsd 进程中映射。

例如,如果您在客户机中使用 300Mi 文件缓冲区缓存,QEMU 和 virtiofsd 都显示使用 300Mi 额外内存。但是,所有三种情况下都使用相同的内存。换句话说,内存使用的总量仅为 300Mi,这个值被映射在三个不同的位置。报告内存使用率指标时,会正确计算。

3.1.2. 检查集群节点是否有资格运行 OpenShift 沙盒容器

在运行 OpenShift 沙盒容器前,您可以检查集群中的节点是否有资格运行 Kata 容器。有些集群节点可能不符合沙盒容器的最低要求。节点不合格的最常见原因是节点上缺少虚拟化支持。如果您试图在不符合节点上运行沙盒工作负载,则会出现错误。您可以使用 Node Feature Discovery (NFD) Operator 和 NodeFeatureDiscovery 资源自动检查节点资格。

注意

如果您只想在符合条件的所选 worker 节点上安装 Kata 运行时,请将 feature.node.kubernetes.io/runtime.kata=true 标签应用到所选节点,并在 KataConfig 资源中设置 checkNodeEligibility: true

另外,要在所有 worker 节点上安装 Kata 运行时,在 KataConfig 资源中设置 checkNodeEligibility: false

在这两种场景中,您不需要创建 NodeFeatureDiscovery 资源。如果您确定节点有资格运行 Kata 容器,则应该只应用 feature.node.kubernetes.io/runtime.kata=true 标签。

以下流程将 feature.node.kubernetes.io/runtime.kata=true 标签应用到所有有资格的节点,并将 KataConfig 资源配置为检查节点资格。

先决条件

  • 安装 OpenShift CLI(oc)。
  • 以具有 cluster-admin 特权的用户身份登录。
  • 安装 Node Feature Discovery (NFD) Operator。

流程

  1. 创建 NodeFeatureDiscovery 资源来检测适合运行 Kata 容器的节点功能:

    1. 将以下 YAML 保存到 nfd.yaml 文件中:

      apiVersion: nfd.openshift.io/v1
      kind: NodeFeatureDiscovery
      metadata:
        name: nfd-kata
        namespace: openshift-nfd
      spec:
        operand:
          image: quay.io/openshift/origin-node-feature-discovery:4.10
          imagePullPolicy: Always
          servicePort: 12000
        workerConfig:
          configData: |
            sources:
               custom:
                 - name: "feature.node.kubernetes.io/runtime.kata"
                   matchOn:
                     - cpuId: ["SSE4", "VMX"]
                       loadedKMod: ["kvm", "kvm_intel"]
                     - cpuId: ["SSE4", "SVM"]
                       loadedKMod: ["kvm", "kvm_amd"]
    2. 创建 NodeFeatureDiscovery 自定义资源(CR):

      $ oc create -f nfd.yaml

      输出示例

      nodefeaturediscovery.nfd.openshift.io/nfd-kata created

      feature.node.kubernetes.io/runtime.kata=true 标签应用到所有合格的 worker 节点。

  2. KataConfig 资源中将 checkNodeEligibility 字段设置为 true 来启用这个功能,例如:

    1. 将以下 YAML 保存到 kata-config.yaml 文件中:

      apiVersion: kataconfiguration.openshift.io/v1
      kind: KataConfig
      metadata:
        name: example-kataconfig
      spec:
        checkNodeEligibility: true
    2. 创建 KataConfig CR:

      $ oc create -f kata-config.yaml

      输出示例

      kataconfig.kataconfiguration.openshift.io/example-kataconfig created

验证

  • 验证集群中是否应用了正确的标签:

    $ oc get nodes --selector='feature.node.kubernetes.io/runtime.kata=true'

    输出示例

    NAME                           STATUS                     ROLES    AGE     VERSION
    compute-3.example.com          Ready                      worker   4h38m   v1.23.3+e419edf
    compute-2.example.com          Ready                      worker   4h35m   v1.23.3+e419edf

其他资源

  • 有关安装 Node Feature Discovery (NFD) Operator 的更多信息,请参阅安装 NFD

3.2. 使用 Web 控制台部署 OpenShift 沙盒容器工作负载

您可从 web 控制台部署 OpenShift 沙盒容器工作负载。首先,您必须安装 OpenShift 沙盒容器 Operator,然后创建 KataConfig 自定义资源 (CR)。在沙盒容器中部署工作负载后,您必须手动将 kata 作为 runtimeClassName 添加到工作负载 YAML 文件中。

3.2.1. 使用 Web 控制台安装 OpenShift 沙盒容器 Operator

您可从 OpenShift Container Platform Web 控制台安装 OpenShift 沙盒容器 Operator。

先决条件

  • 已安装 OpenShift Container Platform 4.10。
  • 您可以使用具有 cluster-admin 角色的用户访问集群。

流程

  1. 从 Web 控制台中的 Administrator 视角,进入到 OperatorsOperatorHub
  2. Filter by keyword 字段中,输入 OpenShift sandboxed containers
  3. 选择 OpenShift sandboxed containers 标题。
  4. 阅读 Operator 信息并单击 Install
  5. Install Operator 页面中:

    1. 从可用 Update Channel 选项列表中选择 stable-1.2
    2. 验证为 Installed Namespace 选择了 Operator recommended Namespace。这会在 openshift-sandboxed-containers-operator 命名空间中安装 Operator。如果此命名空间尚不存在,则会自动创建。

      注意

      尝试在 openshift-sandboxed-containers-operator 以外的命名空间中安装 OpenShift 沙盒容器 Operator 会导致安装失败。

    3. 验证是否为 Approval Strategy 选择了 AutomaticAutomatic 是默认值,当有新的 z-stream 发行版本可用时,自动启用对 OpenShift 沙盒容器的自动更新。
  6. Install

OpenShift 沙盒容器 Operator 现已安装在集群中。

验证

  1. 从 Web 控制台中的 Administrator 视角,导航到 OperatorsInstalled Operators
  2. 验证 OpenShift 沙盒容器 Operator 是否在 operator 列表中列出。

3.2.2. 在 web 控制台中创建 KataConfig 自定义资源

您必须创建一个 KataConfig 自定义资源(CR),以便在集群节点上启用将 kata 作为 RuntimeClass

重要

创建 KataConfig CR 会自动重启 worker 节点。重启可能需要 10 到 60 分钟。妨碍重启时间的因素如下:

  • 带有更多 worker 节点的大型 OpenShift Container Platform 部署。
  • 激活 BIOS 和 Diagnostics 实用程序。
  • 在硬盘而不是 SSD 上部署。
  • 在物理节点上部署,如裸机,而不是在虚拟节点上部署。
  • CPU 或网络慢。

先决条件

  • 在集群中安装了 OpenShift Container Platform 4.10。
  • 您可以使用具有 cluster-admin 角色的用户访问集群。
  • 已安装 OpenShift 沙盒容器 Operator。
注意

Kata 默认安装在所有 worker 节点上。如果要在特定节点上安装 kata 作为 RuntimeClass,您可以向这些节点添加标签,然后在创建时定义 KataConfig CR 中的标签。

流程

  1. 从 Web 控制台中的 Administrator 视角,导航到 OperatorsInstalled Operators
  2. 从 Operator 列表中选择 OpenShift 沙盒容器 Operator。
  3. KataConfig 选项卡中,点 Create KataConfig
  4. Create KataConfig 页面中,选择通过 YAML 视图 配置 KataConfig CR。
  5. 将以下清单复制并粘贴到 YAML 视图中

    apiVersion: kataconfiguration.openshift.io/v1
    kind: KataConfig
    metadata:
      name: cluster-kataconfig
    spec:
      kataMonitorImage: registry.redhat.io/openshift-sandboxed-containers/osc-monitor-rhel8:1.2.0

    如果要在所选节点上安装 kata 作为 RuntimeClass,请在清单中包括该标签:

    apiVersion: kataconfiguration.openshift.io/v1
    kind: KataConfig
    metadata:
      name: cluster-kataconfig
    spec:
      kataMonitorImage: registry.redhat.io/openshift-sandboxed-containers/osc-monitor-rhel8:1.2.0
      kataConfigPoolSelector:
        matchLabels:
          <label_key>: '<label_value>' 1
    1
    kataConfigPoolSelector 中的标签只支持单个值;不支持 nodeSelector 语法。
  6. Create

新的 KataConfig CR 会被创建,并开始在 worker 节点上作为 RuntimeClass 安装 kata。等待 kata 安装完成,以及 worker 节点重启,然后继续下一步。

重要

OpenShift 沙盒容器仅将 Kata 安装为集群中的辅助可选运行时,而不作为主要运行时安装。

验证

  1. KataConfig 选项卡中,选择新的 KataConfig CR。
  2. KataConfig 页面中,选择 YAML 选项卡。
  3. 监控状态中的 installationStatus 字段。

    每次有更新时都会出现一条消息。点 Reload 查看更新的 KataConfig CR。

    Completed nodes 的值等于 worker 或已标记的节点的数量,则代表安装已完成。该状态还包含安装完成的节点的列表。

3.2.3. 使用 Web 控制台在沙盒容器中部署工作负载

OpenShift 沙盒容器将 Kata 安装为集群上的辅助、可选运行时,而不是主运行时。

要在沙盒容器中部署 pod 模板工作负载,您必须手动将 kata 作为 runtimeClassName 添加到工作负载 YAML 文件中。

先决条件

  • 在集群中安装了 OpenShift Container Platform 4.10。
  • 您可以使用具有 cluster-admin 角色的用户访问集群。
  • 已安装 OpenShift 沙盒容器 Operator。
  • 您已创建了 KataConfig 自定义资源 (CR)。

流程

  1. 从 web 控制台中的 Administrator 视角,展开 Workloads 并选择您要创建的工作负载类型。
  2. 在工作负载页面中,点击以创建工作负载。
  3. 在工作负载的 YAML 文件中,在列出容器的 spec 字段中,添加 runtimeClassName: kata

    Pod 对象示例

    apiVersion: v1
    kind: Pod
    metadata:
      name: hello-openshift
      labels:
        app: hello-openshift
    spec:
      runtimeClassName: kata
      containers:
        - name: hello-openshift
          image: quay.io/openshift/origin-hello-openshift
          ports:
            - containerPort: 8888
          securityContext:
            privileged: false
            allowPrivilegeEscalation: false
            runAsNonRoot: true
            runAsUser: 1001
            capabilities:
              drop:
                - ALL
            seccompProfile:
              type: RuntimeDefault

  4. 点击 Save

OpenShift Container Platform 创建工作负载并开始调度它。

3.3. 使用 CLI 部署 OpenShift 沙盒容器工作负载

您可以使用 CLI 部署 OpenShift 沙盒容器工作负载。首先,您必须安装 OpenShift 沙盒容器 Operator,然后创建 KataConfig 自定义资源。在沙盒容器中部署工作负载后,您必须将 kata 作为 runtimeClassName 添加到工作负载 YAML 文件中。

3.3.1. 使用 CLI 安装 OpenShift 沙盒容器 Operator

您可以使用 OpenShift Container Platform CLI 安装 OpenShift 沙盒容器 Operator。

先决条件

  • 已在集群中安装了 OpenShift Container Platform 4.10。
  • 已安装 OpenShift CLI(oc)。
  • 您可以使用具有 cluster-admin 角色的用户访问集群。
  • 您已订阅了 OpenShift 沙盒容器目录。

    注意

    订阅 OpenShift 沙盒容器目录为 openshift-sandboxed-containers-operator 命名空间提供了对 OpenShift 沙盒容器 Operator 的访问权限。

流程

  1. 为 OpenShift 沙盒容器 Operator 创建 Namespace 对象。

    1. 创建一个包含以下清单的 Namespace 对象 YAML 文件:

      apiVersion: v1
      kind: Namespace
      metadata:
        name: openshift-sandboxed-containers-operator
    2. 创建 Namespace 对象:

      $ oc create -f Namespace.yaml
  2. 为 OpenShift 沙盒容器 Operator 创建 OperatorGroup 对象。

    1. 创建一个包含以下清单的 OperatorGroup 对象 YAML 文件:

      apiVersion: operators.coreos.com/v1
      kind: OperatorGroup
      metadata:
        name: openshift-sandboxed-containers-operator
        namespace: openshift-sandboxed-containers-operator
      spec:
        targetNamespaces:
        - openshift-sandboxed-containers-operator
    2. 创建 OperatorGroup 对象:

      $ oc create -f OperatorGroup.yaml
  3. 创建 Subscription 对象,以便为 OpenShift 沙盒容器 Operator 订阅命名空间

    1. 创建一个包含以下内容的 Subscription 对象 YAML 文件:

      apiVersion: operators.coreos.com/v1alpha1
      kind: Subscription
      metadata:
        name: openshift-sandboxed-containers-operator
        namespace: openshift-sandboxed-containers-operator
      spec:
        channel: "stable-1.2"
        installPlanApproval: Automatic
        name: sandboxed-containers-operator
        source: redhat-operators
        sourceNamespace: openshift-marketplace
        startingCSV: sandboxed-containers-operator.v1.2.2
    2. 创建 Subscription 对象:

      $ oc create -f Subscription.yaml

OpenShift 沙盒容器 Operator 现已安装在集群中。

注意

以上列出的所有对象文件名都是建议。您可以使用其他名称创建对象 YAML 文件。

验证

  • 确保正确安装 Operator:

    $ oc get csv -n openshift-sandboxed-containers-operator

    输出示例

    NAME                             DISPLAY                                  VERSION  REPLACES   PHASE
    openshift-sandboxed-containers   openshift-sandboxed-containers-operator  1.2.2    1.2.1      Succeeded

3.3.2. 使用 CLI 创建 KataConfig 自定义资源

您必须创建一个 KataConfig 自定义资源 (CR)来作为 RuntimeClass 在节点上安装 kata。创建 KataConfig CR 会触发 OpenShift 沙盒容器 Operator 来执行以下操作:

  • 在 RHCOS 节点上安装所需的 RHCOS 扩展,如 QEMU 和 kata-containers
  • 确保 CRI-O 运行时配置了正确的 kata 运行时处理程序。
  • 使用默认配置创建一个名为 kataRuntimeClass CR。这可让用户在 RuntimeClassName 字段中引用 CR 将工作负载配置为使用 kata 作为运行时。此 CR 也指定运行时的资源开销。
注意

Kata 默认安装在所有 worker 节点上。如果要在特定节点上安装 kata 作为 RuntimeClass,您可以向这些节点添加标签,然后在创建时定义 KataConfig CR 中的标签。

先决条件

  • 在集群中安装了 OpenShift Container Platform 4.10。
  • 已安装 OpenShift CLI(oc)。
  • 您可以使用具有 cluster-admin 角色的用户访问集群。
  • 已安装 OpenShift 沙盒容器 Operator。
重要

创建 KataConfig CR 会自动重启 worker 节点。重启可能需要 10 到 60 分钟。妨碍重启时间的因素如下:

  • 带有更多 worker 节点的大型 OpenShift Container Platform 部署。
  • 激活 BIOS 和 Diagnostics 实用程序。
  • 在硬盘而不是 SSD 上部署。
  • 在物理节点上部署,如裸机,而不是在虚拟节点上部署。
  • CPU 或网络慢。

流程

  1. 使用以下清单创建 YAML 文件:

    apiVersion: kataconfiguration.openshift.io/v1
    kind: KataConfig
    metadata:
      name: cluster-kataconfig
    spec:
      kataMonitorImage: registry.redhat.io/openshift-sandboxed-containers/osc-monitor-rhel8:1.2.0
  2. (可选)如果只在所选节点上安装 kata 作为 RuntimeClass,请创建一个包含清单中的标签的 YAML 文件:

    apiVersion: kataconfiguration.openshift.io/v1
    kind: KataConfig
    metadata:
      name: cluster-kataconfig
    spec:
      kataMonitorImage: registry.redhat.io/openshift-sandboxed-containers/osc-monitor-rhel8:1.2.0
      kataConfigPoolSelector:
        matchLabels:
          <label_key>: '<label_value>' 1
    1
    kataConfigPoolSelector 中的标签只支持单个值;不支持 nodeSelector 语法。
  3. 创建 KataConfig 资源:

    $ oc create -f <file name>.yaml

新的 KataConfig CR 会被创建,并开始在 worker 节点上作为 RuntimeClass 安装 kata。等待 "kata" 安装完成,以及 worker 节点重新引导,然后继续下一步。

重要

OpenShift 沙盒容器仅将 Kata 安装为集群中的辅助可选运行时,而不作为主要运行时安装。

验证

  • 监控安装进度:

    $ watch "oc describe kataconfig | sed -n /^Status:/,/^Events/p"

    Is In Progress 的值显示为 false 后,安装就已完成。

3.3.3. 使用 CLI 在沙盒容器中部署工作负载

OpenShift 沙盒容器将 Kata 安装为集群上的辅助、可选运行时,而不是主运行时。

要在沙盒容器中部署 pod 模板工作负载,您必须将 kata 作为 runtimeClassName 添加到工作负载 YAML 文件中。

先决条件

  • 在集群中安装了 OpenShift Container Platform 4.10。
  • 已安装 OpenShift CLI(oc)。
  • 您可以使用具有 cluster-admin 角色的用户访问集群。
  • 已安装 OpenShift 沙盒容器 Operator。
  • 您已创建了 KataConfig 自定义资源 (CR)。

流程

  • runtimeClassName: kata 添加到任何 pod 模板对象中:

    • Pod 对象
    • ReplicaSet 对象
    • ReplicationController 对象
    • StatefulSet 对象
    • Deployment 对象
    • deploymentConfig 对象

Pod 对象示例

apiVersion: v1
kind: Pod
metadata:
  name: hello-openshift
  labels:
    app: hello-openshift
spec:
  runtimeClassName: kata
  containers:
    - name: hello-openshift
      image: quay.io/openshift/origin-hello-openshift
      ports:
        - containerPort: 8888
      securityContext:
        privileged: false
        allowPrivilegeEscalation: false
        runAsNonRoot: true
        runAsUser: 1001
        capabilities:
          drop:
            - ALL
        seccompProfile:
          type: RuntimeDefault

OpenShift Container Platform 创建工作负载并开始调度它。

验证

  • 检查 pod 模板对象上的 runtimeClassName 字段。如果 runtimeClassNamekata,则工作负载在 OpenShift 沙盒容器中运行。

3.4. 其他资源

第 4 章 监控 OpenShift 沙盒容器

您可以使用 OpenShift Container Platform Web 控制台监控与沙盒工作负载和节点的健康状态相关的指标。

OpenShift 沙盒容器在 web 控制台中有一个预先配置的仪表板,管理员还可以通过 Prometheus 访问和查询原始指标。

4.1. 关于 OpenShift 沙盒容器指标

OpenShift 沙盒容器指标让管理员能够监控沙盒容器的运行方式。您可以在 web 控制台中的 Metrics UI 中查询这些指标。

OpenShift 沙盒容器指标为以下类别收集:

Kata 代理指标
Kata 代理指标显示有关嵌入在沙盒容器中运行的 kata 代理进程的信息。这些指标包括 /proc/<pid>/[io, stat, status] 中的数据。
Kata 客户机操作系统指标
Kata 客户机操作系统指标显示沙盒容器中运行的客户机操作系统中的数据。这些指标包括 /proc/[stats, diskstats, meminfo, vmstats]/proc/net/dev 中的数据。
hypervisor 指标
hypervisor 指标显示有关运行嵌入在沙盒容器中虚拟机的虚拟机监控程序的数据。这些指标主要包括 /proc/<pid>/[io, stat, status] 中的数据。
Kata 监控指标
Kata 监控器是收集指标数据并提供给 Prometheus 的进程。kata 监控指标显示有关 kata-monitor 进程本身的资源使用情况的详细信息。这些指标还包括 Prometheus 数据收集的计数器。
Kata containerd shim v2 指标
Kata containerd shim v2 指标显示有关 kata shim 进程的详细信息。这些指标包括来自 /proc/<pid>/[io, stat, status] 和详细的资源使用量指标的数据。

4.2. 查看 OpenShift 沙盒容器的指标

您可以在 web 控制台的 Metrics 页面中访问 OpenShift 沙盒容器的指标。

先决条件

  • 已安装 OpenShift Container Platform 4.10。
  • 已安装 OpenShift 沙盒容器。
  • 您可以使用具有 cluster-admin 角色或所有项目的查看权限的用户访问集群。

流程

  1. 从 web 控制台中的 Administrator 视角,进入到 ObserveMetrics
  2. 在输入字段中,输入您要观察到的指标的查询。

    所有与 kata 相关的指标都以 kata 开头。键入 kata 将显示含有所有可用 kata 指标的列表。

在页面中会视觉化查询的指标。

其他资源

  • 有关创建 PromQL 查询来查看指标的更多信息,请参阅 查询指标

4.3. 查看 OpenShift 沙盒容器仪表板

您可以在 web 控制台的 Dashboards 页面中访问 OpenShift 沙盒容器仪表板。

先决条件

  • 已安装 OpenShift Container Platform 4.10。
  • 已安装 OpenShift 沙盒容器。
  • 您可以使用具有 cluster-admin 角色或所有项目的查看权限的用户访问集群。

流程

  1. 从 web 控制台中的 Administrator 视角,进入到 ObserveDashboards
  2. Dashboard 下拉列表中,选择 Sandboxed Containers 仪表板。
  3. 可选:在 Time Range 列表中为图形选择一个时间范围。

    • 选择预定义的时间段。
    • 通过选择 Time Range 列表中的 Custom 时间范围 来设置自定义时间范围。

      1. 定义您要查看的数据的日期和时间范围。
      2. 单击 Save 以保存自定义时间范围。
  4. 可选:选择一个 Refresh Interval

仪表板会出现在页面中,其中包含来自 Kata 客户机操作系统类别的以下指标:

正在运行的虚拟机数量
显示集群中运行的沙盒容器总数。
CPU 使用率(每个虚拟机)
显示每个沙盒容器的 CPU 使用量。
内存用量(每个虚拟机)
显示每个沙盒容器的内存用量。

将鼠标悬停在仪表板中的每个图形上,以显示具体项目的详细信息。

4.4. 其他资源

第 5 章 卸载 OpenShift 沙盒容器

您可以使用 OpenShift Container Platform Web 控制台或 OpenShift CLI (oc) 卸载 OpenShift 沙盒容器。下面解释这两个程序。

5.1. 使用 Web 控制台卸载 OpenShift 沙盒容器

使用 OpenShift Container Platform Web 控制台删除相关的 OpenShift 沙盒容器 pod、资源和命名空间。

5.1.1. 使用 Web 控制台删除 OpenShift 沙盒容器 pod

要卸载 OpenShift 沙盒容器,您必须首先删除所有使用 kata 作为 runtimeClass 的 pod。

先决条件

  • 已在集群中安装了 OpenShift Container Platform 4.10。
  • 您可以使用具有 cluster-admin 角色的用户访问集群。
  • 您有一个使用 kata 作为 runtimeClass 的 pod 列表。

流程

  1. Administrator 视角中,进入到 WorkloadsPods
  2. 使用 Search by name 字段搜索您要删除的 pod。
  3. 点 pod 名称打开它。
  4. Details 页面中,检查已针对 Runtime 类 显示 kata
  5. Actions 菜单,再选择 Delete Pod
  6. 在确认窗口中点击 Delete

其他资源

您可以从 OpenShift CLI 检索使用 kata 作为 runtimeClass 的运行 pod 的列表。详情请参阅删除 OpenShift 沙盒容器 pod

5.1.2. 使用 Web 控制台删除 KataConfig 自定义资源

删除 KataConfig 自定义资源 (CR) 会从集群中移除并卸载 kata 运行时及其相关资源。

重要

删除 KataConfig CR 会自动重启 worker 节点。重启可能需要 10 到 60 分钟。妨碍重启时间的因素如下:

  • 带有更多 worker 节点的大型 OpenShift Container Platform 部署。
  • 激活 BIOS 和 Diagnostics 实用程序。
  • 在硬盘而不是 SSD 上部署。
  • 在物理节点上部署,如裸机,而不是在虚拟节点上部署。
  • CPU 或网络慢。

先决条件

  • 已在集群中安装了 OpenShift Container Platform 4.10。
  • 您可以使用具有 cluster-admin 角色的用户访问集群。
  • 您没有任何正在运行的 pod 使用 kata 作为 runtimeClass

流程

  1. Administrator 视角中,进入到 OperatorsInstalled Operators
  2. 使用 Search by name 字段搜索 OpenShift 沙盒容器 Operator。
  3. 点 Operator 打开它,然后选择 KataConfig 选项卡。
  4. KataConfig 资源的 Options 菜单 kebab ,然后选择 Delete KataConfig
  5. 在确认窗口中点击 Delete

等待 Kata 运行时和资源卸载,并使 worker 节点重启,然后继续下一步。

5.1.3. 使用 Web 控制台删除 OpenShift 沙盒容器 Operator

删除 OpenShift 沙盒容器 Operator 会删除 Operator 的目录订阅、Operator 组和集群服务版本 (CSV)。

先决条件

  • 已在集群中安装了 OpenShift Container Platform 4.10。
  • 您可以使用具有 cluster-admin 角色的用户访问集群。

流程

  1. Administrator 视角中,进入到 OperatorsInstalled Operators
  2. 使用 Search by name 字段搜索 OpenShift 沙盒容器 Operator。
  3. 点击 Operator 的 Options 菜单 kebab 并选择 Uninstall Operator
  4. 在确认窗口中点 Uninstall

5.1.4. 使用 Web 控制台删除 OpenShift 沙盒容器命名空间

运行上述命令后,集群将恢复到安装过程之前的状态。现在,您可以通过删除 openshift-sandboxed-containers-operator 命名空间来撤销对 Operator 的命名空间访问。

先决条件

  • 已在集群中安装了 OpenShift Container Platform 4.10。
  • 您可以使用具有 cluster-admin 角色的用户访问集群。

流程

  1. Administrator 视角中,进入到 AdministrationNamespaces
  2. 使用 Search by name 字段搜索 openshift-sandboxed-containers-operator 命名空间。
  3. 点命名空间的 Options 菜单 kebab 并选择 Delete Namespace

    注意

    如果 Delete Namespace 选项不可用,代表您没有删除命名空间的权限。

  4. Delete Namespace 窗格中,输入 openshift-sandboxed-containers-operator 并点 Delete
  5. 点击 Delete

5.1.5. 使用 Web 控制台删除 KataConfig 自定义资源定义

KataConfig 自定义资源定义 (CRD) 可让您定义 KataConfig CR。要完成卸载过程,请从集群中删除 KataConfig CRD。

先决条件

  • 已在集群中安装了 OpenShift Container Platform 4.10。
  • 您可以使用具有 cluster-admin 角色的用户访问集群。
  • 您已从集群中删除 KataConfig CR。
  • 您已从集群中移除了 OpenShift 沙盒容器 Operator。

流程

  1. Administrator 视角,进入到 AdministrationCustomResourceDefinitions
  2. 使用 Search by name 字段搜索 KataConfig
  3. KataConfig CRD kebabOptions 菜单,然后选择 Delete CustomResourceDefinition
  4. 在确认窗口中点击 Delete
  5. 等待 KataConfig CRD 会从列表中消失。这可能需要几分钟。

5.2. 使用 CLI 卸载 OpenShift 沙盒容器

您可以使用 OpenShift Container Platform 命令行界面(CLI) 卸载 OpenShift 沙盒容器。按照显示它们的顺序按照以下步骤操作。

5.2.1. 使用 CLI 删除 OpenShift 沙盒容器 pod

要卸载 OpenShift 沙盒容器,您必须首先删除所有使用 kata 作为 runtimeClass 的 pod。

先决条件

  • 已安装 OpenShift CLI(oc)。
  • 已安装命令行 JSON 处理器 (jq)。

流程

  1. 运行以下命令,搜索使用 kata 作为 runtimeClass 的 pod:

    $ oc get pods -A -o json | jq -r '.items[] | select(.spec.runtimeClassName == "kata").metadata.name'
  2. 要删除每个 pod,请运行以下命令:

    $ oc delete pod <pod-name>

5.2.2. 使用 CLI 删除 KataConfig 自定义资源

从集群中删除并卸载 kata 运行时及其所有相关资源,如 CRI-O 配置和 RuntimeClass。根据部署的大小,删除通常需要十到四十分钟才能完成。

先决条件

  • 已在集群中安装了 OpenShift Container Platform 4.10。
  • 已安装 OpenShift CLI(oc)。
  • 您可以使用具有 cluster-admin 角色的用户访问集群。
重要

删除 KataConfig CR 会自动重启 worker 节点。重启可能需要 10 到 60 分钟。妨碍重启时间的因素如下:

  • 带有更多 worker 节点的大型 OpenShift Container Platform 部署。
  • 激活 BIOS 和 Diagnostics 实用程序。
  • 在硬盘而不是 SSD 上部署。
  • 在物理节点上部署,如裸机,而不是在虚拟节点上部署。
  • CPU 或网络慢。

流程

  1. 运行以下命令来删除 KataConfig 自定义资源:

    $ oc delete kataconfig <KataConfig_CR_Name>

OpenShift 沙盒容器 Operator 会删除最初为在集群中启用运行时创建的所有资源。

重要

在删除过程中,CLI 会停止响应,直到所有 worker 节点重启为止。等待进程完成,然后执行验证或继续进行后续步骤。

验证

  • 要验证 KataConfig 自定义资源是否已删除,请运行以下命令:

    $ oc get kataconfig <KataConfig_CR_Name>

    输出示例

    No KataConfig instances exist

5.2.3. 使用 CLI 删除 OpenShift 沙盒容器 Operator

通过删除 Operator 订阅、Operator 组、集群服务版本(CSV)和命名空间从集群中删除 OpenShift 沙盒容器 Operator。

先决条件

  • 已在集群中安装了 OpenShift Container Platform 4.10。
  • 已安装 OpenShift CLI(oc)。
  • 您已安装了 readand-line JSON 处理器(jq)。
  • 您可以使用具有 cluster-admin 角色的用户访问集群。

流程

  1. 运行以下命令,从订阅中获取 OpenShift 沙盒容器的集群服务版本 (CSV) 名称:

    CSV_NAME=$(oc get csv -n openshift-sandboxed-containers-operator -o=custom-columns=:metadata.name)
  2. 运行以下命令,从 Operator Lifecyle Manager(OLM)中删除 OpenShift 沙盒容器 Operator 订阅:

    $ oc delete subscription sandboxed-containers-operator -n openshift-sandboxed-containers-operator
  3. 运行以下命令,删除 OpenShift 沙盒容器的 CSV 名称:

    $ oc delete csv ${CSV_NAME} -n openshift-sandboxed-containers-operator
  4. 运行以下命令来获取 OpenShift 沙盒容器 Operator 组名称:

    $ OG_NAME=$(oc get operatorgroup -n openshift-sandboxed-containers-operator -o=jsonpath={..name})
  5. 运行以下命令来删除 OpenShift 沙盒容器 Operator 组名称:

    $ oc delete operatorgroup ${OG_NAME} -n openshift-sandboxed-containers-operator
  6. 运行以下命令来删除 OpenShift 沙盒容器命名空间:

    $ oc delete namespace openshift-sandboxed-containers-operator

5.2.4. 使用 CLI 删除 KataConfig 自定义资源定义

KataConfig 自定义资源定义 (CRD) 可让您定义 KataConfig CR。从集群中删除 KataConfig CRD。

先决条件

  • 已安装 OpenShift CLI(oc)。
  • 您可以使用具有 cluster-admin 角色的用户访问集群。
  • 您已从集群中删除 KataConfig CR。
  • 您已从集群中移除了 OpenShift 沙盒容器 Operator。

流程

  1. 运行以下命令来删除 KataConfig CRD:

    $ oc delete crd kataconfigs.kataconfiguration.openshift.io

验证

  • 要验证 KataConfig CRD 是否已删除,请运行以下命令:

    $ oc get crd kataconfigs.kataconfiguration.openshift.io

    输出示例

    Unknown CR KataConfig

第 6 章 升级 OpenShift 沙盒容器

OpenShift 沙盒容器组件的升级由以下三个步骤组成:

  • 升级 OpenShift Container Platform 以更新 Kata 运行时及其依赖项。
  • 升级 OpenShift 沙盒容器 Operator 以更新 Operator 订阅。
  • 手动修补 KataConfig 自定义资源 (CR) 以更新监控 pod。

您可以在 OpenShift 沙盒容器 Operator 升级前或之后升级 OpenShift Container Platform,但有以下例外。在升级 OpenShift 沙盒容器 Operator 后,始终立即应用 KataConfig 补丁。

重要

如果您使用 OpenShift 沙盒容器 1.3 升级到 OpenShift Container Platform 4.11,建议的顺序是从 OpenShift 沙盒容器从 1.2 升级到 1.3,然后将 OpenShift Container Platform 从 4.10 升级到 4.11。

6.1. 升级 OpenShift 沙盒容器资源

OpenShift 沙盒容器资源使用 Red Hat Enterprise Linux CoreOS (RHCOS) 扩展部署到集群中。

RHCOS 扩展沙盒容器包含运行 Kata 容器所需的组件,如 Kata 容器运行时、虚拟机监控程序 QEMU 和其他依赖项。您可以通过将集群升级到 OpenShift Container Platform 的新版本来升级扩展。

有关升级 OpenShift Container Platform 的更多信息,请参阅更新集群

6.2. 升级 OpenShift 沙盒容器 Operator

使用 Operator Lifecycle Manager (OLM) 手动或自动升级 OpenShift 沙盒容器 Operator。在初始部署期间,选择手动或自动升级可决定将来的升级模式。对于手动升级,Web 控制台会显示集群管理员可安装的可用更新。

有关在 Operator Lifecycle Manager (OLM) 中升级 OpenShift 沙盒容器 Operator 的更多信息,请参阅更新已安装的 Operator

6.3. 升级 OpenShift 沙盒容器监控 pod

升级 OpenShift 沙盒容器后,您需要更新 KataConfig CR 中的 monitor 镜像来升级监控 pod。否则,监控器 pod 将继续运行之前版本中的镜像。

您可以使用 Web 控制台或 CLI 执行更新。

6.3.1. 使用 Web 控制台升级 monitor pod

OpenShift Container Platform 中的 KataConfig YAML 文件包含监控镜像的版本号。使用正确的版本更新版本号。

先决条件

  • 已在集群中安装了 OpenShift Container Platform 4.10。
  • 您可以使用具有 cluster-admin 角色的用户访问集群。

流程

  1. 从 OpenShift Container Platform 的 Administrator 视角,进入到 OperatorsInstalled Operators
  2. 选择 OpenShift 沙盒容器 Operator 并进入 KataConfig 选项卡。
  3. 使用 Search by name 字段搜索 KataConfig 资源。KataConfig 资源的默认名称为 example-kataconfig
  4. 选择 KataConfig 资源,再进入 KataConfig 选项卡。
  5. 修改 kataMonitorImage 的版本号:

        checkNodeEligibility: false
        kataConfigPoolSelector: null
        kataMonitorImage: 'registry.redhat.io/openshift-sandboxed-containers/osc-monitor-rhel8:1.3.0'
  6. 点击 Save

6.3.2. 使用 CLI 升级 monitor pod

您可以手动修补 KataConfig CR 中的 monitor 镜像,以更新 monitor pod。

先决条件

  • 已在集群中安装了 OpenShift Container Platform 4.10。
  • 已安装 OpenShift CLI(oc)。
  • 您可以使用具有 cluster-admin 角色的用户访问集群。

流程

  • 在 OpenShift Container Platform CLI 中运行以下命令:

    $ oc patch kataconfig <kataconfig_name> --type merge --patch
    '{"spec":{"kataMonitorImage":"registry.redhat.io/openshift-sandboxed-containers/osc-monitor-rhel8:1.3.0"}}'

    其中: <kataconfig_name> :: 指定您的 Kata 配置文件的名称,如 example-kataconfig

第 7 章 收集 OpenShift 沙盒容器数据

当对 OpenShift 沙盒容器进行故障排除时,您可以创建一个支持问题单,并使用 must-gather 工具提供调试信息。

如果您是集群管理员,您还可以自行查看日志,启用更详细的日志级别。

7.1. 为红帽支持收集 OpenShift 沙盒容器数据

在提交问题单时同时提供您的集群信息,可以帮助红帽支持为您进行排除故障。

您可使用 must-gather 工具来收集有关 OpenShift Container Platform 集群的诊断信息,包括虚拟机和有关 OpenShift 沙盒容器的其他数据。

为了获得快速支持,请提供 OpenShift Container Platform 和 OpenShift 沙盒容器的诊断信息。

7.1.1. 关于 must-gather 工具

oc adm must-gather CLI 命令可收集最有助于解决问题的集群信息,包括:

  • 资源定义
  • 服务日志

默认情况下,oc adm must-gather 命令使用默认的插件镜像,并写入 ./must-gather.local

另外,您可以使用适当的参数运行命令来收集具体信息,如以下部分所述:

  • 要收集与一个或多个特定功能相关的数据,请使用 --image 参数和镜像,如以下部分所述。

    例如:

    $ oc adm must-gather  --image=registry.redhat.io/container-native-virtualization/cnv-must-gather-rhel8:v4.10.0
  • 要收集审计日志,请使用 -- /usr/bin/gather_audit_logs 参数,如以下部分所述。

    例如:

    $ oc adm must-gather -- /usr/bin/gather_audit_logs
    注意

    作为默认信息集合的一部分,不会收集审计日志来减小文件的大小。

当您运行 oc adm must-gather 时,集群的新项目中会创建一个带有随机名称的新 pod。在该 pod 上收集数据,并保存至以 must-gather.local 开头的一个新目录中。此目录在当前工作目录中创建。

例如:

NAMESPACE                      NAME                 READY   STATUS      RESTARTS      AGE
...
openshift-must-gather-5drcj    must-gather-bklx4    2/2     Running     0             72s
openshift-must-gather-5drcj    must-gather-s8sdh    2/2     Running     0             72s
...

要使用 must-gather 来收集 OpenShift 沙盒容器数据,您必须指定 OpenShift 沙盒容器镜像:

--image=registry.redhat.io/openshift-sandboxed-containers/osc-must-gather-rhel8:1.2.0

7.2. 关于 OpenShift 沙盒容器日志数据

当您收集集群的日志数据时,以下功能和对象与 OpenShift 沙盒容器相关联:

  • 所有属于任何 OpenShift 沙盒容器资源的命名空间及其子对象
  • 所有 OpenShift 沙盒容器自定义资源定义 (CRD)

以下 OpenShift 沙盒容器组件日志会针对使用 kata 运行时运行的每个 pod 收集:

  • Kata 代理日志
  • Kata 运行时日志
  • QEMU 日志
  • 审计日志
  • CRI-O 日志

7.3. 为 OpenShift 沙盒容器启用调试日志

作为集群管理员,您可以为 OpenShift 沙盒容器收集更详细的日志级别。通过更改运行 OpenShift 沙盒容器的 worker 节点的 CRI-O 运行时中的 log_level 来增强日志记录。

流程

  1. 使用以下清单为 ContainerRuntimeConfig CR 创建 YAML 文件:

    apiVersion: machineconfiguration.openshift.io/v1
    kind: ContainerRuntimeConfig
    metadata:
     name: crio-debug
    spec:
     machineConfigPoolSelector:
      matchLabels:
        pools.operator.machineconfiguration.openshift.io/worker: '' 1
     containerRuntimeConfig:
        logLevel: debug
    1
    为您要修改的机器配置池指定一个标签。
  2. 创建 ContainerRuntimeConfig CR:

    $ oc create -f ctrcfg.yaml
    注意

    以上列出的文件名是一个建议。您可以使用其他名称创建此文件。

  3. 验证是否已创建 CR:

    $ oc get ctrcfg

    输出示例

    NAME           AGE
    crio-debug   3m19s

验证

  1. 监控机器配置池,直到所有 worker 节点的 UPDATED 字段都显示为 True

    $ oc get mcp worker

    输出示例

    NAME    CONFIG               UPDATED  UPDATING  DEGRADED  MACHINECOUNT  READYMACHINECOUNT  UPDATEDMACHINECOUNT  DEGRADEDMACHINECOUNT  AGE
    worker  rendered-worker-169  False    True      False     3             1                  1                    0                     9h

  2. 验证 log_level 是否在 CRI-O 中更新:

    1. 打开到机器配置池中节点的 oc debug 会话,并运行 chroot /host

      $ oc debug node/<node_name>
      sh-4.4# chroot /host
    2. 验证 crio.conf 文件中的更改:

      sh-4.4# crio config | egrep 'log_level

      输出示例

      log_level = "debug"

7.3.1. 查看 OpenShift 沙盒容器的调试日志

集群管理员可以使用 OpenShift 沙盒容器增强的调试日志来排除问题。每个节点的日志会输出到节点日志中。

您可以查看以下 OpenShift 沙盒容器组件的日志:

  • Kata 代理
  • Kata runtime (containerd-shim-kata-v2)
  • virtiofsd

QEMU 的日志不会打印到节点日志。但是,QEMU 故障会报告到运行时,QEMU 客户机的控制台会输出到节点日志中。您可以将这些日志与 Kata 代理日志一起查看。

先决条件

  • 已安装 OpenShift CLI(oc)。
  • 您可以使用具有 cluster-admin 角色的用户访问集群。

流程

  • 要查看 Kata 代理日志和客户机控制台日志,请运行:

    $ oc debug node/<nodename> -- journalctl -D /host/var/log/journal -t kata -g “reading guest console”
  • 要查看 kata 运行时日志,请运行:

    $ oc debug node/<nodename> -- journalctl -D /host/var/log/journal -t kata
  • 要查看 virtiofsd 日志,请运行:

    $ oc debug node/<nodename> -- journalctl -D /host/var/log/journal -t virtiofsd

7.4. 其他资源

法律通告

Copyright © 2023 Red Hat, Inc.
The text of and illustrations in this document are licensed by Red Hat under a Creative Commons Attribution–Share Alike 3.0 Unported license ("CC-BY-SA"). An explanation of CC-BY-SA is available at http://creativecommons.org/licenses/by-sa/3.0/. In accordance with CC-BY-SA, if you distribute this document or an adaptation of it, you must provide the URL for the original version.
Red Hat, as the licensor of this document, waives the right to enforce, and agrees not to assert, Section 4d of CC-BY-SA to the fullest extent permitted by applicable law.
Red Hat, Red Hat Enterprise Linux, the Shadowman logo, the Red Hat logo, JBoss, OpenShift, Fedora, the Infinity logo, and RHCE are trademarks of Red Hat, Inc., registered in the United States and other countries.
Linux® is the registered trademark of Linus Torvalds in the United States and other countries.
Java® is a registered trademark of Oracle and/or its affiliates.
XFS® is a trademark of Silicon Graphics International Corp. or its subsidiaries in the United States and/or other countries.
MySQL® is a registered trademark of MySQL AB in the United States, the European Union and other countries.
Node.js® is an official trademark of Joyent. Red Hat is not formally related to or endorsed by the official Joyent Node.js open source or commercial project.
The OpenStack® Word Mark and OpenStack logo are either registered trademarks/service marks or trademarks/service marks of the OpenStack Foundation, in the United States and other countries and are used with the OpenStack Foundation's permission. We are not affiliated with, endorsed or sponsored by the OpenStack Foundation, or the OpenStack community.
All other trademarks are the property of their respective owners.