2.3. 了解 OpenShift Dedicated 的进程和安全性

2.3.1. 事件和操作管理

本文档详细介绍了 OpenShift Dedicated 管理服务的职责。

2.3.1.1. 平台监控

红帽站点可靠性工程师(SRE)为所有 OpenShift Dedicated 集群组件、SRE 服务和底层云供应商帐户维护集中监控和警报系统。平台审计日志可以安全地转发到集中式 SIEM (安全信息和事件监控)系统,其中可能会触发 SRE 团队配置的警报,也可以手动审核。审计日志保留在 SIEM 中一年。当集群被删除时,给定集群的审计日志不会被删除。

2.3.1.2. 事件管理

事件是导致一个或多个红帽服务降级或中断事件。事件可以由客户或客户体验与参与(CEE)成员通过支持问题单、直接由集中式监控和警报系统或由 SRE 团队的成员直接提升。

根据服务和客户的影响,事件会按照严重性进行分级。

如何由红帽管理新事件的一般工作流:

  1. SRE 第一次响应器会警告新的事件,并开始进行初始调查。
  2. 在初始调查后,会为事件分配一个事件,领导事件协调恢复工作。
  3. 事件线索管理关于恢复的所有通信和协调,包括相关的通知和支持问题单更新。
  4. 事件已被恢复。
  5. 其事件被记录,一个根本原因分析在事件的 5 个工作日内进行。
  6. 根本原因分析 (RCA) 草案文档在事件的 7 个工作日内与客户共享。

2.3.1.3. 通知

平台通知配置使用电子邮件。任何客户通知也会发送到对应的红帽帐户团队,如果适用,红帽大客户经理。

以下活动可触发通知:

  • 平台事件
  • 性能降级
  • 集群容量警告
  • 关键漏洞和解决方案
  • 升级调度

2.3.1.4. 备份和恢复

所有 OpenShift Dedicated 集群都使用云供应商快照备份。值得注意的是,这不包括存储在持久性卷 (PV) 上的客户数据。所有快照都使用适当的云供应商快照 API,并上传到与集群相同的帐户中的安全对象存储桶(AWS 中的S3 和 Google Cloud 中的 GCS)中。

组件快照频率保留备注

完整对象存储备份

每日

7 天

这是所有 Kubernetes 对象(如 etcd)的完整备份。这个备份调度中没有备份 PV。

每周

30 天

完整对象存储备份

每小时

24 小时

这是所有 Kubernetes 对象(如 etcd)的完整备份。这个备份调度中没有备份 PV。

节点根卷

Never

N/A

节点被视为是短期的。节点的 root 卷应当不重要。

  • 红帽不提交任何恢复点目标 (RPO) 或恢复时间目标 (RTO)。
  • 客户负责对其数据的定期备份
  • 客户应部署带有 Kubernetes 最佳实践工作负载的 multi-AZ 集群,以确保在区域内高可用性。
  • 如果整个云区域不可用,客户必须在不同的区域安装新集群,并使用备份数据恢复其应用程序。

2.3.1.5. 集群容量

评估和管理集群容量是由红帽和客户之间共享的责任。Red Hat SRE 负责集群中所有 control plane 和基础架构节点的容量。

红帽 SRE 还会评估升级过程中的集群容量,并响应集群警报。集群升级对容量的影响会被评估为升级测试过程的一部分,以确保对集群的新添加添加的负面影响。在集群升级过程中,添加了额外的 worker 节点,以确保在升级过程中保留集群的总容量。

SRE 人员的容量评估也会在响应集群中的警报时发生,在一定时间段内超过使用量阈值。这些警报也可以产生给客户的通知。

2.3.2. 变更管理

本节论述了如何管理集群和配置更改、补丁和发行版本策略。

2.3.2.1. 客户发起的更改

您可以使用自助服务功能(如集群部署、worker 节点扩展或集群删除)启动更改。

更改历史记录在 OpenShift Cluster Manager Overview 选项卡中的 Cluster History 部分中捕获,供您查看。更改历史记录包括但不仅限于,日志来自以下变化:

  • 添加或删除身份提供程序
  • dedicated-admins 组中添加或移除用户
  • 扩展集群计算节点
  • 扩展集群负载均衡器
  • 扩展集群持久性存储
  • 升级集群

您可以通过避免以下组件的 OpenShift Cluster Manager 中的更改来实现维护排除:

  • 删除集群
  • 添加、修改或删除身份提供程序
  • 从提升的组中添加、修改或删除用户
  • 安装或删除附加组件
  • 修改集群网络配置
  • 添加、修改或删除机器池
  • 启用或禁用用户工作负载监控
  • 启动升级
重要

要强制实施维护排除,请确保禁用了机器池自动扩展或自动升级策略。在维护排除后,根据需要继续启用机器池自动扩展或自动升级策略。

2.3.2.2. 红帽发起的更改

红帽站点可靠性工程 (SRE) 使用 GitOps 工作流管理 OpenShift Dedicated 的基础架构、代码和配置,并完全自动化的 CI/CD 管道。此过程可确保红帽可以持续地引入服务改进,而不影响客户。

每次建议的更改都会在检查后立即执行一系列自动验证。然后将更改部署到临时环境,在其中进行自动集成测试。最后,更改会部署到生产环境。每个步骤都完全自动化。

授权的 SRE 审查程序必须为每个步骤批准改进。建议者不能与提议更改的单独人员相同。所有更改和批准均作为 GitOps 工作流的一部分完全可审核。

使用功能标记逐步将某些更改发布到生产环境,以控制新功能对指定集群或客户的可用性。

2.3.2.3. 补丁管理

OpenShift Container Platform 软件和底层不可变 Red Hat Enterprise Linux CoreOS (RHCOS) 操作系统镜像针对常规 z-stream 升级过程中的漏洞和漏洞进行补丁。在 OpenShift Container Platform 文档中了解更多有关 RHCOS 架构 的信息。

2.3.2.4. 发行管理

红帽不会自动升级集群。您可以使用 OpenShift Cluster Manager Web 控制台调度定期升级集群(周期性升级),或使用 OpenShift Cluster Manager web 控制台调度一次(计算升级)一次。只有集群受严重影响 CVE 的影响时,红帽才会强制将集群升级到新的 z-stream 版本。您可以在 OpenShift Cluster Manager web 控制台中查看所有集群升级事件的历史记录。有关发行版本的更多信息,请参阅 生命周期策略

2.3.3. 安全和合规性

安全和合规性和合规性包括实施安全控制和合规认证等任务。

2.3.3.1. 数据分类

红帽定义并遵循一个数据分类标准,以确定数据的敏感度,并强调所收集、使用、传输、存储和处理数据的保密性和完整性的固有风险。客户拥有的数据被分类为最高水平的敏感度和处理要求。

2.3.3.2. 数据管理

OpenShift Dedicated 使用 AWS 密钥管理服务(KMS)和 Google Cloud KMS 等云供应商服务,以帮助安全地管理持久数据的加密密钥。这些密钥用于加密所有 control plane、基础架构和 worker 节点根卷。客户可在安装时为加密根卷指定自己的 KMS 密钥。持久性卷(PV)也使用 KMS 进行密钥管理。通过创建一个新的 StorageClass 引用 KMS 密钥 Amazon Resource Name (ARN)或 ID,用户可以指定自己的 KMS 密钥进行加密 PV。

当客户删除其 OpenShift Dedicated 集群时,所有集群数据都会被永久删除,包括 control plane 数据卷和客户应用程序数据卷,如持久性卷(PV)。

2.3.3.3. 漏洞管理

红帽使用行业标准工具对 OpenShift Dedicated 执行定期漏洞扫描。识别的漏洞将根据严重性的时间表跟踪其补救。记录漏洞扫描和修复活动,以供在合规认证审计课程中由第三方评估商进行验证。

2.3.3.4. 网络安全性

2.3.3.4.1. 防火墙和 DDoS 保护

每个 OpenShift Dedicated 集群都由云基础架构级别的安全网络配置使用防火墙规则(AWS 安全组或 Google Cloud Compute Engine 防火墙规则)进行保护。AWS 上的 OpenShift Dedicated 客户也会保护对 AWS Shield Standard 的 DDoS 攻击。同样,OpenShift Dedicated 在 GCP 上使用的所有 GCP 负载均衡器和公共 IP 地址都可以通过 Google Cloud Armor Standard 保护 DDoS 的攻击。

2.3.3.4.2. 私有集群和网络连接

客户可以选择配置其 OpenShift Dedicated 集群端点(Web 控制台、API 和应用程序路由器),以便无法从互联网访问集群 control plane 或应用程序。

对于 AWS,用户可以通过 AWS VPC 对等、AWS VPN 或 AWS Direct Connect 配置私有网络连接。

注意

目前,Google Cloud 上的 OpenShift Dedicated 集群不支持私有集群。

2.3.3.4.3. 集群网络访问控制

客户可使用 NetworkPolicy 对象和 OpenShift SDN 配置细粒度网络访问控制规则。

2.3.3.5. penetration 测试

红帽对 OpenShift Dedicated 执行定期测试。测试由独立的内部团队使用行业标准工具和最佳实践进行。

发现的任何问题会根据严重性排列优先级。属于开源项目的所有问题都与社区共享以解决问题。

2.3.3.6. Compliance

OpenShift Dedicated 遵循常见的安全和控制最佳实践。下表中概述了认证。

表 2.2. OpenShift Dedicated 的安全性和控制认证

ComplianceAWS 上的 OpenShift DedicatedGCP 上的 OpenShift Dedicated

HIPAA 认证的

是(仅限客户云订阅)

是(仅限客户云订阅)

ISO 27001

PCI DSS

SOC 2 类型 2

其他资源

2.3.4. 灾难恢复

OpenShift Dedicated 为 pod、worker 节点、基础架构节点、control plane 节点和可用区级别的故障提供灾难恢复。

所有灾难恢复要求客户使用最佳实践来部署高可用性应用程序、存储和集群架构(例如,单区部署与多区部署)来考虑所需的可用性级别。

当可用性区域或区域中断时,一个单区集群不会提供灾难避免或恢复。带有客户维护故障转移的多个单区集群可以在区域或区域级别考虑停机。

当完整区域中断时,一个多区集群不会提供灾难避免或恢复。多个带有客户维护故障转移的多区集群可以考虑区域级别的中断。

2.3.5. 其他资源

  • 有关红帽站点可靠性工程(SRE)团队访问权限的更多信息,请参阅 身份和访问管理