3.5. 了解 Red Hat OpenShift Service on AWS 的流程和安全性
本文档详述了 Red Hat OpenShift Service on AWS (ROSA) 的职责。
缩写和术语
- AWS - Amazon Web Services
- CEE - Customer Experience and Engagement (Red Hat Support)
- CI/CD - Continuous Integration / Continuous Delivery
- CVE - 常见漏洞和风险
- PVs - 持久性卷
- ROSA - Red Hat OpenShift Service on AWS
- SRE - Red Hat Site Reliability Engineering
- VPC - Virtual Private Cloud
3.5.1. 事件和操作管理
本文档详细介绍了 Red Hat OpenShift Service on AWS (ROSA) 托管服务的职责。
3.5.1.1. 平台监控
Red Hat 站点可靠性工程师(SRE)维护所有 ROSA 集群组件、SRE 服务和底层 AWS 帐户的集中监控和警报系统。平台审计日志安全转发到集中式安全信息和事件监控 (SIEM) 系统,其中可能会触发 SRE 团队配置的警报,也可以手动查看。审计日志保留在 SIEM 系统中一年。当集群被删除时,给定集群的审计日志不会被删除。
3.5.1.2. 事件管理
事件是导致一个或多个红帽服务降级或中断事件。事件可以由客户或客户体验与参与(CEE)成员通过支持问题单、直接由集中式监控和警报系统或由 SRE 团队的成员直接提升。
根据服务和客户的影响,事件会按照严重性进行分级。
在管理新事件时,红帽使用以下常规工作流:
- SRE 第一次响应器会警告新的事件,并开始进行初始调查。
- 在初始调查后,会为事件分配一个事件,领导事件协调恢复工作。
- 事件线索管理关于恢复的所有通信和协调,包括相关的通知和支持问题单更新。
- 事件已被恢复。
- 其事件被记录,一个根本原因分析 (RCA) 在事件的 5 个工作日内进行。
- 在事件 7 个工作日内将与客户共享 RCA 草案。
3.5.1.3. 通知
平台通知配置使用电子邮件。有些客户通知也会发送到帐户对应的红帽帐户团队(包括技术客户经理)。
以下活动可触发通知:
- 平台事件
- 性能降级
- 集群容量警告
- 关键漏洞和解决方案
- 升级调度
3.5.1.4. 基础架构和数据弹性
客户负责定期备份其数据,并应该使用 Kubernetes 最佳实践部署多AZ 集群,以确保区域内高可用性。如果整个云区域不可用,客户必须在不同的区域安装新集群,并使用备份数据恢复其应用程序。
使用 STS 的 ROSA 集群没有红帽提供的备份方法。红帽不提交任何恢复点目标 (RPO) 或恢复时间目标 (RTO)。
3.5.1.5. 集群容量
评估和管理集群容量是由红帽和客户之间共享的责任。Red Hat SRE 负责集群中所有 control plane 和基础架构节点的容量。
红帽 SRE 还会评估升级过程中的集群容量,并响应集群警报。集群升级对容量的影响会被评估为升级测试过程的一部分,以确保对集群的新添加添加的负面影响。在集群升级过程中,添加了额外的 worker 节点,以确保在升级过程中保留集群的总容量。
红帽 SRE 员工的容量评估也会在特定时间段内超过使用量阈值后对集群发出的警报。这些警报也可以产生给客户的通知。
3.5.2. 变更管理
本节论述了如何管理集群和配置更改、补丁和发行版本策略。
3.5.2.1. 客户发起的更改
您可以使用自助服务功能(如集群部署、worker 节点扩展或集群删除)启动更改。
更改历史记录在 OpenShift Cluster Manager Overview 选项卡中的 Cluster History 部分中捕获,供您查看。更改历史记录包括但不仅限于,日志来自以下变化:
- 添加或删除身份提供程序
-
在
dedicated-admins组中添加或移除用户 - 扩展集群计算节点
- 扩展集群负载均衡器
- 扩展集群持久性存储
- 升级集群
您可以通过避免以下组件的 OpenShift Cluster Manager 中的更改来实现维护排除:
- 删除集群
- 添加、修改或删除身份提供程序
- 从提升的组中添加、修改或删除用户
- 安装或删除附加组件
- 修改集群网络配置
- 添加、修改或删除机器池
- 启用或禁用用户工作负载监控
- 启动升级
要强制实施维护排除,请确保禁用了机器池自动扩展或自动升级策略。在维护排除后,根据需要继续启用机器池自动扩展或自动升级策略。
3.5.2.2. 红帽发起的更改
红帽站点可靠性工程 (SRE) 使用 GitOps 工作流管理 AWS 上的基础架构、代码和配置 Red Hat OpenShift Service,并完全自动化的 CI/CD 管道。此过程可确保红帽可以持续地引入服务改进,而不影响客户。
每次建议的更改都会在检查后立即执行一系列自动验证。然后将更改部署到临时环境,在其中进行自动集成测试。最后,更改会部署到生产环境。每个步骤都完全自动化。
授权的 SRE 审查程序必须为每个步骤批准改进。建议者不能与提议更改的单独人员相同。所有更改和批准均作为 GitOps 工作流的一部分完全可审核。
使用功能标记逐步将某些更改发布到生产环境,以控制新功能对指定集群或客户的可用性。
3.5.2.3. 补丁管理
OpenShift Container Platform 软件和底层不可变 Red Hat CoreOS (RHCOS) 操作系统镜像对常规 z-stream 升级过程中的漏洞和漏洞进行修补。在 OpenShift Container Platform 文档中了解更多有关 RHCOS 架构 的信息。
3.5.2.4. 发行管理
红帽不会自动升级集群。您可以使用 OpenShift Cluster Manager Web 控制台调度定期升级集群(周期性升级),或使用 OpenShift Cluster Manager web 控制台调度一次(计算升级)一次。只有集群受严重影响 CVE 的影响时,红帽才会强制将集群升级到新的 z-stream 版本。
因为需要的权限可以在 y-stream 版本之间更改,所以可能需要更新策略,然后才能执行升级。因此,您无法使用 STS 在 ROSA 集群上调度重复升级。
您可以在 OpenShift Cluster Manager web 控制台中查看所有集群升级事件的历史记录。有关发行版本的更多信息,请参阅生命周期策略。
3.5.3. 身份和访问管理
红帽站点可靠性工程 (SRE) 团队的大部分访问是通过自动化配置管理的集群 Operator 来完成。
3.5.3.1. 子处理器
有关可用子处理器列表,请查看红帽客户门户网站上的红帽子处理器列表。
3.5.3.2. SRE 访问 AWS 集群中的所有 Red Hat OpenShift Service
SREs 通过 Web 控制台或命令行工具访问 Red Hat OpenShift Service on AWS 集群。身份验证需要多因素身份验证 (MFA),对密码复杂性和帐户锁定要求具有行业标准的要求。SRE 必须作为个人进行身份验证以确保可审核。所有验证尝试都会记录到安全信息和事件管理 (SIEM) 系统。
SREs 使用加密 HTTP 连接访问私有集群。只有通过 IP 允许列表或私有云供应商链接,才能从安全的红帽网络获得连接。
图 3.1. SRE 对 ROSA 集群的访问

3.5.3.3. Red Hat OpenShift Service on AWS 中的特权访问控制
当访问 Red Hat OpenShift Service on AWS 和 AWS 组件时,SRE 遵循了最小特权的原则。SRE 访问有四个基本类别:
- SRE 管理通过红帽门户访问,具有正常双因素身份验证,且无特权的 elevation。
- SRE 管理通过带有正常双因素身份验证的 Red Hat Enterprise SSO 访问,且没有特权升级。
- OpenShift elevation,这是使用红帽 SSO 的手动提升。访问时间被限制为 2 小时,经过全面审核,需要进行管理批准。
- AWS 访问或提升,这是 AWS 控制台或 CLI 访问的手动传播。访问仅限于 60 分钟,并且完全审核。
每种访问类型对组件具有不同的访问权限级别:
| 组件 | 典型的 SRE 管理访问权限(红帽门户) | 典型的 SRE 管理员访问权限(红帽 SSO) | OpenShift elevation | 云供应商访问或提升信息 |
|---|---|---|---|---|
| OpenShift Cluster Manager | R/W | 无权限 | 无权限 | 无权限 |
| OpenShift console | 无权限 | R/W | R/W | 无权限 |
| 节点操作系统 | 无权限 | 提升 OS 和网络权限的特定列表。 | 提升 OS 和网络权限的特定列表。 | 无权限 |
| AWS 控制台 | 无权限 | 没有访问权限,但这是用于请求云供应商访问的帐户。 | 无权限 | 使用 SRE 身份的所有云供应商权限。 |
3.5.3.4. SRE 对 AWS 帐户的访问
在日常的 Red Hat OpenShift Service on AWS 操作中,Red Hat 人员不会访问 AWS 账户。出于紧急的故障排除目的,SRE 定义了并可审计的程序来访问云基础架构帐户。
SRE 使用 AWS 安全令牌服务 (STS) 为保留角色生成简短的 AWS 访问令牌。对 STS 令牌的访问会被审核,可追溯到各个用户。STS 和非STS 集群都使用 AWS STS 服务进行 SRE 访问。对于非STS 集群,BYOCAdminAccess 角色附加了 AdministratorAccess IAM 策略,此角色用于管理。对于 STS 集群,ManagedOpenShift-Support-Role 带有 ManagedOpenShift-Support-Access 策略,这个策略用于管理。
3.5.3.5. 红帽支持访问
红帽客户体验与参与 (CEE) 团队的成员通常对部分群集具有只读访问权限。具体来说,CEE 对核心和产品命名空间具有有限访问权限,且无法访问客户命名空间。
| 角色 | Core 命名空间 | 层次产品命名空间 | Customer 命名空间 | AWS 帐户* |
|---|---|---|---|---|
| OpenShift SRE | Read: All Write: Very 有限 [1] | Read: All Write: None | Read: None[2] Write: None | Read: All [3] Write: All [3] |
| CEE | Read: All Write: None | Read: All Write: None | Read: None[2] Write: None | Read: None Write: None |
| 客户管理员 | Read: None Write: None | Read: None Write: None | Read: All Write: All | Read: All Write: All |
| 客户用户 | Read: None Write: None | Read: None Write: None | Read: Limited[4] Write: Limited[4] | Read: None Write: None |
| 其他人 | Read: None Write: None | Read: None Write: None | Read: None Write: None | Read: None Write: None |
- 仅限于解决常见用例,如部署失败、升级集群并替换错误的 worker 节点。
- 默认情况下,红帽人员无法访问客户数据。
- SRE 对 AWS 帐户的访问是在记录的事件期间进行出色的故障排除紧急步骤。
- 限制为通过 RBAC 授予的内容,以及用户创建的命名空间。
3.5.3.6. 客户访问权限
客户访问权限仅限于由客户管理员角色使用 RBAC 授予权限创建的命名空间。通常不允许访问底层基础架构或产品命名空间,而无需 cluster-admin 访问。有关客户访问和身份验证的更多信息,请参阅文档中的"观察身份验证"部分。
3.5.3.7. 访问批准及审核
新的 SRE 用户访问需要管理批准。通过自动过程将经过隔离或传输的 SRE 帐户作为授权用户删除。另外,SRE 会执行定期访问审核,包括授权用户列表的管理登录。
3.5.4. 安全和合规性
安全和合规性和合规性包括实施安全控制和合规认证等任务。
3.5.4.1. 数据分类
红帽定义并遵循一个数据分类标准,以确定数据的敏感度,并强调所收集、使用、传输、存储和处理数据的保密性和完整性的固有风险。客户拥有的数据被分类为最高水平的敏感度和处理要求。
3.5.4.2. 数据管理
Red Hat OpenShift Service on AWS (ROSA )使用 AWS 密钥管理服务 (KMS) 来帮助安全地管理加密的数据密钥。这些密钥用于默认加密的 control plane、基础架构和 worker 数据卷。客户应用程序的持久性卷 (PV) 也使用 AWS KMS 进行密钥管理。
当客户删除其 ROSA 集群时,所有集群数据都会被永久删除,包括 control plane 数据卷和客户应用程序数据卷,如持久性卷 (PV)。
3.5.4.3. 漏洞管理
红帽使用行业标准工具对 ROSA 执行定期漏洞扫描。识别的漏洞将根据严重性的时间表跟踪其补救。记录漏洞扫描和修复活动,以供在合规认证审计课程中由第三方评估商进行验证。
3.5.4.4. 网络安全性
3.5.4.4.1. 防火墙和 DDoS 保护
每个 ROSA 集群都由使用 AWS 安全组的防火墙规则的安全网络配置进行保护。ROSA 客户还可保护对 AWS Shield Standard 的 DDoS 攻击。
3.5.4.4.2. 私有集群和网络连接
客户可以选择配置其 ROSA 集群端点,如 Web 控制台、API 和应用程序路由器,以便无法从互联网访问集群 control plane 和应用程序。Red Hat SRE 仍然需要通过 IP allow-lists 保护的端点。
AWS 客户可通过 AWS VPC 对等、AWS VPN 或 AWS Direct Connect 等技术配置私有网络连接到其 ROSA 集群。
3.5.4.4.3. 集群网络访问控制
客户可以使用 NetworkPolicy 对象和 OpenShift SDN 配置细粒度网络访问控制规则。
3.5.4.5. penetration 测试
Red Hat 会定期对 ROSA 进行测试。通过使用行业标准工具和最佳实践,由独立内部团队执行测试。
发现的任何问题会根据严重性进行优先级排序。属于开源项目的所有问题都与社区共享以解决问题。
3.5.4.6. Compliance
Red Hat OpenShift Service on AWS 在安全性和控制方面遵循常见的行业最佳实践。下表中概述了认证。
表 3.2. Red Hat OpenShift Service on AWS 的安全性和控制认证
| Compliance | Red Hat OpenShift Service on AWS (ROSA) | 带有托管 control plane (HCP)的 Red Hat OpenShift Service on AWS (ROSA) |
|---|---|---|
| HIPAA Qualified | 是 | 否 |
| ISO 27001 | 是 | 否 |
| ISO 27017 | 是 | 否 |
| ISO 27018 | 是 | 否 |
| PCI DSS | 是 | 否 |
| SOC 2 类型 2 | 是 | 否 |
| SOC 3 | 是 | 否 |
其他资源
- 有关 SRE 驻留的信息,请参阅 Red Hat Subprocessor 列表。
3.5.5. 灾难恢复
Red Hat OpenShift Service on AWS (ROSA)为 pod、worker 节点、基础架构节点、control plane 节点和可用区级别的故障提供灾难恢复。
所有灾难恢复要求客户使用最佳实践来部署高可用性应用程序、存储和集群架构,如单区部署或多区部署等,以考虑所需的可用性级别。
当可用性区域或区域中断时,一个单区集群不会提供灾难避免或恢复。带有客户维护故障转移的多个单区集群可以在区域或区域级别考虑停机。
当完整区域中断时,一个多区集群不会提供灾难避免或恢复。多个带有客户维护故障转移的多区集群可以考虑区域级别的中断。