3.3. 了解 OpenShift Dedicated 的流程和安全性
3.3.1. 事件和操作管理
本文档详细介绍了 OpenShift Dedicated 管理服务的红帽责任。
3.3.1.1. 平台监控
红帽网站可靠性工程师(SRE)保留所有 OpenShift Dedicated 集群组件、SRE 服务和底层云供应商帐户的集中监控和警报系统。平台审计日志安全转发到集中式 SIEM(安全信息和事件监控)系统,在这里它们可能会触发配置的警报到 SRE 团队,并可能手动审阅。审计日志在 SIEM 中保留一年。在集群被删除时,给定集群的审计日志不会被删除。
3.3.1.2. 事件管理
事件是一种事件,导致一个或多个红帽服务出现性能下降或中断。客户或客户体验与参与(CEE)成员可通过问题单、直接由集中监控和警报系统或直接由 SRE 团队的成员引发事件。
根据服务和客户的影响,事件按照 严重性 分类。
由红帽管理新事件的一般工作流:
- SRE 首先向新事件发出警报,并开始调查初始调查。
- 在进行初始调查后,会为该事件分配事件,负责协调恢复工作。
- 事件领导管理所有与恢复相关的沟通和协调,包括任何相关的通知或支持问题单更新。
- 这个事件已被恢复。
- 其事件被记录,一个根本原因分析是在事件 5 个工作日内执行的。
- 根本原因分析(RCA)草案文件在事件的 7 个工作日内与客户共享。
3.3.1.3. 通知
平台通知配置使用电子邮件。任何客户通知都将发送到相应的红帽帐户团队,如果适用,红帽大客户经理。
以下活动可触发通知:
- 平台事件
- 性能下降
- 集群容量警告
- 关键漏洞和解决方案
- 升级调度
3.3.1.4. 备份和恢复
所有 OpenShift Dedicated 集群都使用云供应商快照备份。值得注意的是,这不包括存储在持久性卷上的客户数据。所有快照都使用适当的云供应商快照 API 进行,并上传到与集群相同的帐户中的安全对象存储存储桶(AWS 中的 S3 和 Google Cloud 中的 GCS)。
组件 | 快照频率 | 保留 | 备注 |
---|---|---|---|
完整对象存储备份,所有集群持久性卷(PV) | daily | 7 天 | 这是所有 Kubernetes 对象(如 etcd)以及集群中的所有 PV 的完整备份。 |
每周 | 30 天 | ||
完整对象存储备份 | hourly | 24 小时 | 这是所有 Kubernetes 对象(如 etcd)的完整备份。这个备份调度没有备份 PV 备份。 |
节点根卷 | Never | N/A | 节点被视为短期。没有任何关键信息都不应存储在节点的 root 卷中。 |
- 红帽不会提交至任何恢复点目标(RPO)或恢复时间目标(RTO)。
- 客户负责定期备份其数据
- 客户应该使用遵循 Kubernetes 最佳实践的工作负载部署多AZ 集群,以确保区域内的高可用性。
- 如果整个云区域不可用,客户必须在不同的地区中安装新的集群,并使用其备份数据恢复其应用程序。
3.3.1.5. 集群容量
评估和管理集群容量是红帽和客户之间的责任。Red Hat SRE 负责集群中所有 control plane 和基础架构节点的容量。
红帽 SRE 还在升级过程中评估集群容量,并响应集群警报。集群升级对容量的影响被评估为升级测试过程的一部分,以确保对集群新增加的增加不会产生负面影响。在集群升级过程中,增加了额外的 worker 节点,以确保在升级过程中维护集群的总容量。
SRE 人员进行容量评估还会响应来自集群的警报,在一定时间段内超过一次使用阈值。这样的警报也可以向客户发出通知。