RHEL 5 でクラスターノードを再起動すると、クラスターがグループの状態を JOIN_STOP_WAIT、LEAVE_STOP_WAIT、または FAIL_ALL_STOP とする
Issue
-
クラスターノードを起動後、
cmanサービスを停止しようとすると接続の問題が生じます。残りのクラスターが復旧していない時にcman_tool servicesを使用すると、グループがLEAVE_STOP_WAITまたはFAIL_ALL_STOPで停止しているように見えます。この状態ではフェンシングもサービス管理も行われず、影響を受けるノードを再参加または削除させてもクラスターが復旧しません。 -
クラスターのサーバーの 1 つがフェンスされました。クラスターの別のノードによってフェンスが適切に行われたことは確認できました。再起動後に
cmanを起動すると、フェンシングの起動で約 5 分間ハングし、最終的に "OK" ステータスが示されますが、group_toolでnoneでなければならない状態がJOIN_STOP_WAITを示しています。
[root@node2 ~]# group_tool ls
type level name id state
fence 0 default 00000000 JOIN_STOP_WAIT
[1 2 3 4]
その他のノードでは FAIL_ALL_STOPPED が表示されます。
[root@node4 ~]# group_tool ls
type level name id state
fence 0 default 00010002 FAIL_ALL_STOPPED
[1 2 3 4]
dlm 1 rgmanager 00020002 none
[1 2 3]
- ノードがフェンスされた後、そのノードがクラスターに再参加しても GFS2 ファイルシステムをマウントできず、"node not a member of the default fence domain" のエラーが発生します。
Environment
- Red Hat Enterprise Linux (RHEL) 5 および High Availability アドオン
service cman stopまたはfence_tool leaveによって直近で停止されたノード
Subscriber exclusive content
A Red Hat subscription provides unlimited access to our knowledgebase of over 48,000 articles and solutions.
Welcome! Check out the Getting Started with Red Hat page for quick tours and guides for common tasks.
