9.5. Сбой кластерных служб

При необходимости изоляции узла кластерные службы прекратят работу до тех пор, пока процесс изоляции не будет успешно завершен. Если кластерные службы зависли, информация о составе кластера на разных узлах отличается, или кластер перестал отвечать после изоляции узла и перезагрузки остальных узлов, проверьте следующие условия:
  • Возможно, произошел сбой операции в процессе изоляции узла.
  • Проверьте наличие ошибок операций изоляции в файлах /var/log/messages на всех узлах. Если файлы содержат ошибки, перезагрузите узлы и откорректируйте параметры изоляции.
  • Проверьте, не возникла ли ситуация, описанная в главе 9.8 (см.Раздел 9.8, «Элементы кластера с двумя узлами не могут связаться друг с другом»), и убедитесь, что узлы могут взаимодействовать друг с другом.
  • При исключении узлов может оказаться так, что оставшиеся узлы потеряли кворум. Наличие кворума является необходимым условием для нормального функционирования кластера. В этом случае потребуется откорректировать приоритет узлов или вернуть узлы в состав кластера.

Примечание

Узел может быть исключен вручную с помощью fence_node или Conga (см. Раздел 4.3.2, «Добавление и удаление узлов»).