9.12. Незапланированная изоляция

Ниже перечислены условия, которые следует проверить в случае незапланированной изоляции узлов.
  • Наиболее распространненной причиной является потеря узлом ключа доступа. Это приводит к тому, что узел перестает отвечать на запросы подтверждения соединения и не может взаимодействовать с другими элементами кластера.
  • Если узел не отвечает на запросы подтверждения соединения на протяжении предопределенного интервала, он будет изолирован. По умолчанию интервал равен 10 секундам. Другое значение можно определить в поле totem token в файле cluster.conf (в миллисекундах). Например, totem token="30000" увеличит интервал до 30 секунд.
  • Проверьте функциональность сети.
  • Убедитесь, что интерфейсы, используемые при взаимодействии узлов, работают в режиме агрегации 0, 1 и 2. Поддержка режимов 0 и 2 была добавлена в Red Hat Enterprise Linux 6.4.
  • Попытайтесь определить, что именно просходит: зависание системы или паника ядра? Если возможно, с помощью kdump сохраните состояние памяти на момент изоляции.
  • Убедитесь, что конфликт действительно имеет прямое отношение к изоляции узла, будь то исключение узла из кластера диском кворума или вызов перезагрузки узла продуктом стороннего производителя, таким как Oracle RAC. Диагностику следует начинать с проверки сообщений в журналах на всех узлах.
  • Проверьте оборудование: аппаратные сбои могут привести к тому, что система перестанет отвечать на запросы проверки связи.