Show Table of Contents
9.12. Незапланированная изоляция
Ниже перечислены условия, которые следует проверить в случае незапланированной изоляции узлов.
- Наиболее распространненной причиной является потеря узлом ключа доступа. Это приводит к тому, что узел перестает отвечать на запросы подтверждения соединения и не может взаимодействовать с другими элементами кластера.
- Если узел не отвечает на запросы подтверждения соединения на протяжении предопределенного интервала, он будет изолирован. По умолчанию интервал равен 10 секундам. Другое значение можно определить в поле
totem token
в файлеcluster.conf
(в миллисекундах). Например,totem token="30000"
увеличит интервал до 30 секунд. - Проверьте функциональность сети.
- Убедитесь, что интерфейсы, используемые при взаимодействии узлов, работают в режиме агрегации 0, 1 и 2. Поддержка режимов 0 и 2 была добавлена в Red Hat Enterprise Linux 6.4.
- Попытайтесь определить, что именно просходит: зависание системы или паника ядра? Если возможно, с помощью
kdump
сохраните состояние памяти на момент изоляции. - Убедитесь, что конфликт действительно имеет прямое отношение к изоляции узла, будь то исключение узла из кластера диском кворума или вызов перезагрузки узла продуктом стороннего производителя, таким как Oracle RAC. Диагностику следует начинать с проверки сообщений в журналах на всех узлах.
- Проверьте оборудование: аппаратные сбои могут привести к тому, что система перестанет отвечать на запросы проверки связи.