Red Hat Training

A Red Hat training course is available for OpenShift Container Platform

26장. Node Problem Detector

26.1. 개요

Node Problem Detector는 특정 문제를 찾고 이러한 문제를 API 서버에 보고하여 노드의 상태를 모니터링합니다. 판정은 각 노드에서 데몬 세트로 실행됩니다.

중요

Node Problem Detector는 기술 프리뷰 기능 전용입니다. 기술 프리뷰 기능은 Red Hat 프로덕션 서비스 수준 계약(SLA)에서 지원하지 않으며, 기능상 완전하지 않을 수 있어 프로덕션에 사용하지 않는 것이 좋습니다. 이러한 기능을 사용하면 향후 제품 기능을 조기에 이용할 수 있어 개발 과정에서 고객이 기능을 테스트하고 피드백을 제공할 수 있습니다.

Red Hat 기술 프리뷰 기능 지원 범위에 대한 자세한 내용은 https://access.redhat.com/support/offerings/techpreview/를 참조하십시오.

Node Problem Detector는 시스템 로그를 읽고 특정 항목을 감시하고 이러한 문제를 컨트롤 플레인에 표시합니다. 이 경우 oc get node 및 oc get event 와 같은 OpenShift Container Platform 명령을 사용하여 볼 수 있습니다. 그런 다음 OpenShift Container Platform 로그 모니터링 과 같이 이러한 문제를 적절하게 수정하거나 선택한 툴을 사용하여 메시지를 캡처할 수 있습니다. 감지된 문제는 다음 카테고리 중 하나에 포함될 수 있습니다.

  • NodeCondition: Pod에서 노드를 사용할 수 없게 만드는 영구적 문제입니다. 호스트가 재부팅될 때까지 노드 조건이 지워지지 않습니다.
  • 이벤트: 노드에 미치는 영향이 제한되지만 정보를 제공하는 임시 문제입니다.

노드 문제 탐지기에서 다음을 감지할 수 있습니다.

  • 컨테이너 런타임 문제:

    • 응답하지 않는 런타임 데몬
  • 하드웨어 문제:

    • bad CPU
    • 잘못된 메모리
    • 잘못된 디스크
  • 커널 문제:

    • 커널 교착 상태
    • 손상된 파일 시스템
    • 응답하지 않는 런타임 데몬
  • 인프라 데몬 문제:

    • NTP 서비스 중단