13.9.3. 在带有 Mellanox NIC 的 RDMA 模式中使用虚拟功能

重要

RDMA over Converged Ethernet (RoCE) 只是一个技术预览功能。技术预览功能不被红帽产品服务等级协议 (SLA) 支持,且可能在功能方面有缺陷。红帽不推荐在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。

有关红帽技术预览功能支持范围的详情,请参阅 https://access.redhat.com/support/offerings/techpreview/

在 OpenShift Container Platform 上使用 RDMA 时,RDMA over Converged Ethernet (RoCE) 是唯一支持的模式。

先决条件

  • 安装 OpenShift CLI(oc)。
  • 安装 SR-IOV Network Operator。
  • 以具有 cluster-admin 特权的用户身份登录。

流程

  1. 创建以下 SriovNetworkNodePolicy 对象,然后在 mlx-rdma-node-policy.yaml 文件中保存 YAML。

    apiVersion: sriovnetwork.openshift.io/v1
    kind: SriovNetworkNodePolicy
    metadata:
      name: mlx-rdma-node-policy
      namespace: openshift-sriov-network-operator
    spec:
      resourceName: mlxnics
      nodeSelector:
        feature.node.kubernetes.io/network-sriov.capable: "true"
      priority: <priority>
      numVfs: <num>
      nicSelector:
        vendor: "15b3"
        deviceID: "1015" 1
        pfNames: ["<pf_name>", ...]
        rootDevices: ["<pci_bus_id>", "..."]
      deviceType: netdevice 2
      isRdma: true 3
    1
    指定 SR-IOV 网络设备的设备十六进制代码。Mellanox 卡允许的值是 10151017
    2
    指定到 netdevice 的虚拟功能(VF)的驱动器类型。
    3
    启用 RDMA 模式。
    注意

    如需了解 inSriovNetworkNodePolicy 的每个选项的详情,请参阅 Configuring SR-IOV network devices 部分。

    当应用由 SriovNetworkNodePolicy 对象中指定的配置时,SR-IOV Operator 可能会排空节点,并在某些情况下会重启节点。它可能需要几分钟时间来应用配置更改。确保集群中有足够的可用节点,用以预先处理被驱除的工作负载。

    应用配置更新后,openshift-sriov-network-operator 命名空间中的所有 pod 将变为 Running 状态。

  2. 运行以下命令来创建 SriovNetworkNodePolicy 对象:

    $ oc create -f mlx-rdma-node-policy.yaml
  3. 创建以下 SriovNetwork 对象,然后在 mlx-rdma-network.yaml 文件中保存 YAML。

    apiVersion: sriovnetwork.openshift.io/v1
    kind: SriovNetwork
    metadata:
      name: mlx-rdma-network
      namespace: openshift-sriov-network-operator
    spec:
      networkNamespace: <target_namespace>
      ipam: |- 1
    # ...
      vlan: <vlan>
      resourceName: mlxnics
    1
    为 ipam CNI 插件指定一个配置对象做为一个 YAML 块 scalar。该插件管理网络附加定义的 IP 地址分配。
    注意

    如需 SriovNetwork 中的每个选项的详细说明,请参阅"Configuring SR-IOV additional network" 部分。

    一个可选的库 app-netutil 提供了多种 API 方法来收集有关容器父 pod 的网络信息。

  4. 运行以下命令来创建 SriovNetworkNodePolicy 对象:

    $ oc create -f mlx-rdma-network.yaml
  5. 创建以下 Pod spec,然后在 mlx-rdma-pod.yaml 文件中保存 YAML。

    apiVersion: v1
    kind: Pod
    metadata:
      name: rdma-app
      namespace: <target_namespace> 1
      annotations:
        k8s.v1.cni.cncf.io/networks: mlx-rdma-network
    spec:
      containers:
      - name: testpmd
        image: <RDMA_image> 2
        securityContext:
          runAsUser: 0
          capabilities:
            add: ["IPC_LOCK","SYS_RESOURCE","NET_RAW"] 3
        volumeMounts:
        - mountPath: /dev/hugepages 4
          name: hugepage
        resources:
          limits:
            memory: "1Gi"
            cpu: "4" 5
            hugepages-1Gi: "4Gi" 6
          requests:
            memory: "1Gi"
            cpu: "4"
            hugepages-1Gi: "4Gi"
        command: ["sleep", "infinity"]
      volumes:
      - name: hugepage
        emptyDir:
          medium: HugePages
    1
    指定 target_namespace,它与 SriovNetwork 对象 mlx-rdma-network 创建于的命令空间相同。如果要在其他命名空间中创建 pod,在 Pod spec 和 SriovNetowrk 对象中更改 target_namespace
    2
    指定包含应用程序和应用程序使用的 RDMA 库的 RDMA 镜像。
    3
    指定容器内的应用程序进行大页分配、系统资源分配和网络接口访问所需的额外功能。
    4
    /dev/hugepages 下将巨页卷挂载到 RDMA pod。巨页卷由 emptyDir 卷类型支持,medium 为Hugepages
    5
    指定 CPU 数量。RDMA pod 通常需要从 kubelet 分配专用 CPU。这可以通过将 CPU Manager 策略设置为 static,并创建带有有保障的 QoS 的 pod 来实现。
    6
    指定巨页大小 hugepages-1Gihugepages-2Mi 以及分配给 RDMA pod 的巨页数量。单独配置 2Mi1Gi 巨页。配置 1Gi 巨页需要在节点中添加内核参数。
  6. 运行以下命令来创建 RDMA pod:

    $ oc create -f mlx-rdma-pod.yaml