RHEL 5 または 6 クラスターノードで "lost contact with quorum device" メッセージが表示される
Issue
- クラスターノードの再起動、削除、またクラスターからノードのフェンスが行われると、クラスターノードがクォーラムを失います。
- クォーラムディスクの接続が失われ、ノードが再起動されました。
cman
のquorum_dev_poll
設定に何を指定するべきですか? - クラスターがクォーラムデバイスへの接続を失い、クラスターノードが再起動されました。
openais[11663]:[CMAN ] lost contact with quorum device
openais[11664]:[CMAN ] cman killed by node 1 because we were killed by cman_tool or other application
- クォーラムデバイスへのマルチパスマップで 1 つのパスを切断すると、"lost contact with quorum device" の後にノードがクォーラムを失い、クラスターサービスの実行が維持されたり別のノードにリロケートされず停止します。
Aug 1 03:32:23 node1 kernel: qla2xxx 0000:04:00.0:LOOP DOWN detected (4 3 0 0).
Aug 1 03:32:40 node1 openais[12015]:[logging.c:0042] lost contact with quorum device
Aug 1 03:32:40 node1 openais[12015]:[logging.c:0042] quorum lost, blocking activity
Aug 1 03:32:40 node1 clurgmgrd[12095]:<emerg> #1:Quorum Dissolved
Aug 1 03:32:40 node11 clurgmgrd[12095]:<debug> Emergency stop of service:myService
- ノードがフェンスされると、スタンバイのノードがサービスを復旧しようとしますが、
openais
が "lost contact with quorum device" を報告してクォーラムが失われた後に、その復旧操作が失敗します。
Feb 19 20:56:25 node2 fenced[8126]: fence "node1" success
Feb 19 20:56:27 node2 clurgmgrd[12213]:<notice> Taking over service service:myService from down member node1
Feb 19 20:56:29 node2 qdiskd[8108]:<info> Assuming master role
Feb 19 20:56:30 node2 openais[8075]:[CMAN ] lost contact with quorum device
Feb 19 20:56:30 node2 openais[8075]:[CMAN ] quorum lost, blocking activity
Feb 19 20:56:30 node2 clurgmgrd[12213]:<emerg> #1:Quorum Dissolved
Feb 19 20:56:30 node2 ccsd[8069]:Cluster is not quorate.Refusing connection.
Feb 19 20:56:30 node2 ccsd[8069]:Error while processing connect:Connection refused
Feb 19 20:56:30 node2 ccsd[8069]:Invalid descriptor specified (-111).
Feb 19 20:56:30 node2 ccsd[8069]:Someone may be attempting something evil.
Feb 19 20:56:30 node2 ccsd[8069]:Error while processing get:Invalid request descriptor
Feb 19 20:56:30 node2 ccsd[8069]:Invalid descriptor specified (-21).
Feb 19 20:56:30 node2 ccsd[8069]:Someone may be attempting something evil.
Feb 19 20:56:30 node2 ccsd[8069]:Error while processing disconnect:Invalid request descriptor
Feb 19 20:56:32 node2 qdiskd[8108]:<notice> Writing eviction notice for node 1
Feb 19 20:56:32 node2 openais[8075]:[CMAN ] quorum regained, resuming activity
Feb 19 20:56:33 node2 clurgmgrd[12213]:<err> #75:Failed changing service status
- 2 ノードの高可用性クラスターでクォーラムデバイスとの接続を失ったためサーバーが再起動されました。qdiskd の接続を失い、再起動する原因または理由は何ですか?
- 両方のノードで eviction と qdisk の問題が見受けられ、ハングします。通常は各 Quorum Dissolution の前に以下のメッセージがログに記録されます。
node1 qdiskd[XXXX]: qdiskd on node 2 reports hung write()
node2 qdiskd[XXXX]: qdiskd on node 2 reports hung write()
- qdisk がハングした原因は何ですか、そしてどのように回避できますか?
Environment
- Red Hat Enterprise Linux (RHEL) 5 および High Availability アドオン
- Red Hat Enterprise Linux (RHEL) 6 および High Availability アドオン
- クォーラムデバイスまたは "
QDisk
" (/etc/cluster/cluster.conf
の<quorumd>
) を利用する設定
Subscriber exclusive content
A Red Hat subscription provides unlimited access to our knowledgebase, tools, and much more.