RHEL 5 でクラスターノードを再起動すると、クラスターがグループの状態を JOIN_STOP_WAIT、LEAVE_STOP_WAIT、または FAIL_ALL_STOP とする
Issue
-
クラスターノードを起動後、
cman
サービスを停止しようとすると接続の問題が生じます。残りのクラスターが復旧していない時にcman_tool services
を使用すると、グループがLEAVE_STOP_WAIT
またはFAIL_ALL_STOP
で停止しているように見えます。この状態ではフェンシングもサービス管理も行われず、影響を受けるノードを再参加または削除させてもクラスターが復旧しません。 -
クラスターのサーバーの 1 つがフェンスされました。クラスターの別のノードによってフェンスが適切に行われたことは確認できました。再起動後に
cman
を起動すると、フェンシングの起動で約 5 分間ハングし、最終的に "OK" ステータスが示されますが、group_tool
でnone
でなければならない状態がJOIN_STOP_WAIT
を示しています。
[root@node2 ~]# group_tool ls
type level name id state
fence 0 default 00000000 JOIN_STOP_WAIT
[1 2 3 4]
その他のノードでは FAIL_ALL_STOPPED
が表示されます。
[root@node4 ~]# group_tool ls
type level name id state
fence 0 default 00010002 FAIL_ALL_STOPPED
[1 2 3 4]
dlm 1 rgmanager 00020002 none
[1 2 3]
- ノードがフェンスされた後、そのノードがクラスターに再参加しても GFS2 ファイルシステムをマウントできず、"node not a member of the default fence domain" のエラーが発生します。
Environment
- Red Hat Enterprise Linux (RHEL) 5 および High Availability アドオン
service cman stop
またはfence_tool leave
によって直近で停止されたノード
Subscriber exclusive content
A Red Hat subscription provides unlimited access to our knowledgebase, tools, and much more.