1장. 노드 수정, 펜싱 및 유지보수 정보
하드웨어는 결함이 있고 소프트웨어에 버그가 포함되어 있습니다. 커널이 중단되거나 NIC(네트워크 인터페이스 컨트롤러)와 같은 노드 수준 오류가 발생하면 클러스터에 필요한 작업이 감소하지 않으며 영향을 받는 노드에서 워크로드를 다시 시작해야 합니다. 그러나 RWO(ReadWriteOnce) 볼륨 및 StatefulSets와 같은 일부 워크로드에는 거의 하나의 의미가 필요할 수 있습니다.
이러한 워크로드에 영향을 미치는 실패로 인해 데이터 손실, 손상 또는 둘 다 위험이 있습니다. 또한 워크로드를 복구하고 이상적으로 노드를 복구하기 전에 노드가 펜싱 이라는 안전한 상태에 도달하는 것이 중요합니다.
노드 및 워크로드의 실제 상태를 확인하기 위해 관리자의 개입에 의존하는 것이 항상 실용적이지 않습니다. 이러한 개입을 용이하게 하기 위해 Red Hat OpenShift는 장애 감지, 펜싱 및 수정을 자동화하는 데 필요한 여러 구성 요소를 제공합니다.
1.1. Self Node Remediation
Self Node Remediation Operator는 비정상 노드를 재부팅하고 Pod 및 VolumeAttachments와 같은 리소스를 삭제하는 펜싱 및 수정의 외부 시스템을 구현하는 Red Hat OpenShift 애드온 Operator입니다. 재부팅을 통해 워크로드가 펜싱되고 리소스 삭제가 영향을 받는 워크로드의 일정 조정이 가속화됩니다. 다른 외부 시스템과 달리 셀프 노드 수정에는 IPMI(Intelligent Platform Management Interface) 또는 노드 프로비저닝용 API와 같은 관리 인터페이스가 필요하지 않습니다.
Self Node Remediation은 Machine Health Check 또는 Node Health Check와 같은 장애 탐지 시스템에서 사용할 수 있습니다.