15.4. 灾难恢复注意事项

本节描述了几个潜在的灾难情况,以及应对每个灾难的步骤。在发现或假定可能发生其他情况时,将在此处添加其他情况。

15.4.1. 客户端机器丢失

当丢失了使用 Tang 服务器来对磁盘进行解密的集群节点时并不会造成灾难。无论计算机被盗、或出现硬件故障或其他丢失情景都不重要:磁盘会被加密并被视为不可恢复。

但是,如果被盗,Tang 服务器的密钥轮转和所有剩余节点的密钥重新密钥会明智地进行,从而确保磁盘即使在随后获得 Tang 服务器访问权限的情况下仍无法恢复。

要从这一情形中恢复,请重新安装或替换节点。

15.4.2. 计划丢失客户端网络连接

单个节点的网络连接丢失将导致其无法以无人值守的方式引导。

如果您计划做可能导致网络连接丢失的工作,您可以显示现场技术人员要手动使用的密码短语,然后在之后轮转密钥使其无效:

流程

  1. 在网络不可用前,使用这个命令显示第一个插槽中使用的密码 -s 1 的设备 /dev/vda 2:

    $ sudo clevis luks pass -d /dev/vda2 -s 1
  2. 无效该值并使用这个命令重新生成一个新的随机引导时密语:

    $ sudo clevis luks regen -d /dev/vda2 -s 1

15.4.3. 网络连接意外丢失

如果网络中断意外且节点重启,请考虑以下情况:

  • 如果任何节点仍处于在线状态,请确保它们不会重启,直到恢复网络连接为止。这不适用于单节点集群。
  • 节点将保持离线状态,直到恢复网络连接或在控制台中手动输入预先建立的密码短语。在特殊情况下,网络管理员可能能够重新配置网络段以重新建立访问权限,但这与 NBDE 的意图相反,即缺乏网络访问权限意味着缺乏启动能力。
  • 节点中缺少网络访问可合理影响该节点正常工作的能力以及启动能力。即使该节点要通过手动干预引导,缺少网络访问也会使其有效无法使用。

15.4.4. 手动恢复网络连接

对于网络恢复而言,现场技术人员也可以使用稍微复杂且手动密集型的流程。

流程

  1. 现场技术人员从硬盘中提取 Clevis 标头。根据 BIOS 锁定,这可能会涉及到删除磁盘并在实验室计算机中安装它们。
  2. 现场技术人员将 Clevis 标头传输到具有合法访问权限的 Tang 网络的同事,然后执行解密。
  3. 由于需要有限地访问 Tang 网络,技术人员应该无法通过 VPN 或其他远程连接访问该网络。同样,为了自动解密磁盘,技术人员无法通过此网络修补远程服务器。
  4. 技术人员重新安装磁盘并手动输入其同事提供的纯文本密码短语。
  5. 机器即使没有直接访问 Tang 服务器也成功启动。请注意,关键资料从安装站点传输到具有网络访问的另一个站点必须小心进行。
  6. 恢复网络连接后,技术人员会轮转加密密钥。

15.4.5. 紧急恢复网络连接

如果您无法手动恢复网络连接,请考虑以下步骤。请注意,如果还有其他方法可以恢复网络连接,则不建议采用这些步骤。

  • 这个方法只能通过高度信任的技术人员执行。
  • 将 Tang 服务器的关键资料带到远程站点将被视为关键材料的破坏,而且所有服务器都必须更新密钥并重新加密。
  • 这种方法必须仅在极端情况下使用,或者作为概念恢复方法验证来证明其可行性。
  • 同样极端,但在理论上可行,是通过不可中断电源 (UPS) 为服务器提供动力,将服务器传输到具有网络连接的位置,以引导和解密磁盘,然后在攻击机原始位置恢复服务器,以继续操作。
  • 如果要使用备份手动密码短语,您必须在出现失败前创建它。
  • 正如在 TPM 和 Tang 与独立 Tang 安装相比,攻击场景变得更加复杂,因此,如果使用相同的方法,紧急灾难恢复过程也会变得更加复杂。

15.4.6. 网络片段丢失

如果网络片段丢失,导致 Tang 服务器暂时不可用,这会导致以下结果:

  • 如果还有其他服务器可用,OpenShift Container Platform 节点将继续正常引导。
  • 在恢复网络段前,新节点无法建立它们的加密密钥。在这种情况下,确保与远程地理位置的连接,以实现高可用性和冗余性。这是因为,当您安装新节点或重新打包现有节点的密钥时,您在该操作中引用的所有 Tang 服务器都必须可用。

对于高度多样化的网络,例如五个地理区域,每个客户端连接到最接近的三个客户端的混合模式值得调查。

在这种情况下,新客户端可以通过可访问的服务器子集建立其加密密钥。例如,在 tang1tang2tang3 服务器的集合中,如果 tang2 变为不可访问的客户端,仍然可以使用 tang1tang3 建立其加密密钥,稍后使用全集重新建立其加密密钥。这可能涉及人工干预或更复杂的自动化。

15.4.7. 丢失 Tang 服务器

对客户端而言,丢失具有相同关键材料的负载平衡服务器中的单个 Tang 服务器完全透明。

与同一 URL 关联的所有 Tang 服务器的临时故障(即整个负载平衡集)可被视为与网络段的丢失相同。现有客户端能够解密其磁盘分区,只要有其他预配置的 Tang 服务器可用。只有其中一台服务器重新上线后,新客户端才能注册。

您可以通过重新安装服务器或从备份中恢复服务器来缓解 Tang 服务器的物理丢失。确保密钥材料的备份和恢复进程受到未授权访问的充分保护。

15.4.8. 重新密钥密钥

如果关键资料可能会暴露给未经授权的第三方,例如通过 Tang 服务器的物理偏移或相关数据,则立即轮转密钥。

流程

  1. 为包含受影响材料的任何 Tang 服务器更新密钥。
  2. 使用 Tang 服务器更新所有客户端的密钥。
  3. 销毁原始密钥材料。
  4. 检查导致意外公开主加密密钥的任何事件。如果可能,请脱机使受入侵的节点脱机并重新加密其磁盘。
提示

在同一物理硬件上重新格式化和重新安装(虽然速度较慢)很容易自动和测试。