3.3. 了解 OpenShift Dedicated 的流程和安全性

3.3.1. 事件和操作管理

本文档详细介绍了 OpenShift Dedicated 管理服务的红帽责任。

3.3.1.1. 平台监控

红帽网站可靠性工程师(SRE)保留所有 OpenShift Dedicated 集群组件、SRE 服务和底层云供应商帐户的集中监控和警报系统。平台审计日志安全转发到集中式 SIEM(安全信息和事件监控)系统,在这里它们可能会触发配置的警报到 SRE 团队,并可能手动审阅。审计日志在 SIEM 中保留一年。在集群被删除时,给定集群的审计日志不会被删除。

3.3.1.2. 事件管理

事件是一种事件,导致一个或多个红帽服务出现性能下降或中断。客户或客户体验与参与(CEE)成员可通过问题单、直接由集中监控和警报系统或直接由 SRE 团队的成员引发事件。

根据服务和客户的影响,事件按照 严重性 分类。

由红帽管理新事件的一般工作流:

  1. SRE 首先向新事件发出警报,并开始调查初始调查。
  2. 在进行初始调查后,会为该事件分配事件,负责协调恢复工作。
  3. 事件领导管理所有与恢复相关的沟通和协调,包括任何相关的通知或支持问题单更新。
  4. 这个事件已被恢复。
  5. 其事件被记录,一个根本原因分析是在事件 5 个工作日内执行的。
  6. 根本原因分析(RCA)草案文件在事件的 7 个工作日内与客户共享。

3.3.1.3. 通知

平台通知配置使用电子邮件。任何客户通知都将发送到相应的红帽帐户团队,如果适用,红帽大客户经理。

以下活动可触发通知:

  • 平台事件
  • 性能下降
  • 集群容量警告
  • 关键漏洞和解决方案
  • 升级调度

3.3.1.4. 备份和恢复

所有 OpenShift Dedicated 集群都使用云供应商快照备份。值得注意的是,这不包括存储在持久性卷上的客户数据。所有快照都使用适当的云供应商快照 API 进行,并上传到与集群相同的帐户中的安全对象存储存储桶(AWS 中的 S3 和 Google Cloud 中的 GCS)。

组件快照频率保留备注

完整对象存储备份,所有集群持久性卷(PV)

daily

7 天

这是所有 Kubernetes 对象(如 etcd)以及集群中的所有 PV 的完整备份。

每周

30 天

完整对象存储备份

hourly

24 小时

这是所有 Kubernetes 对象(如 etcd)的完整备份。这个备份调度没有备份 PV 备份。

节点根卷

Never

N/A

节点被视为短期。没有任何关键信息都不应存储在节点的 root 卷中。

  • 红帽不会提交至任何恢复点目标(RPO)或恢复时间目标(RTO)。
  • 客户负责定期备份其数据
  • 客户应该使用遵循 Kubernetes 最佳实践的工作负载部署多AZ 集群,以确保区域内的高可用性。
  • 如果整个云区域不可用,客户必须在不同的地区中安装新的集群,并使用其备份数据恢复其应用程序。

3.3.1.5. 集群容量

评估和管理集群容量是红帽和客户之间的责任。Red Hat SRE 负责集群中所有 control plane 和基础架构节点的容量。

红帽 SRE 还在升级过程中评估集群容量,并响应集群警报。集群升级对容量的影响被评估为升级测试过程的一部分,以确保对集群新增加的增加不会产生负面影响。在集群升级过程中,增加了额外的 worker 节点,以确保在升级过程中维护集群的总容量。

SRE 人员进行容量评估还会响应来自集群的警报,在一定时间段内超过一次使用阈值。这样的警报也可以向客户发出通知。