Translated message

A translation of this page exists in English.

RHEL 5 または 6 クラスターノードで "lost contact with quorum device" メッセージが表示される

Solution Verified - Updated -

Issue

  • クラスターノードの再起動、削除、またクラスターからノードのフェンスが行われると、クラスターノードがクォーラムを失います。
  • クォーラムディスクの接続が失われ、ノードが再起動されました。cmanquorum_dev_poll 設定に何を指定するべきですか?
  • クラスターがクォーラムデバイスへの接続を失い、クラスターノードが再起動されました。
        openais[11663]:[CMAN ] lost contact with quorum device
        openais[11664]:[CMAN ] cman killed by node 1 because we were killed by cman_tool or other application
  • クォーラムデバイスへのマルチパスマップで 1 つのパスを切断すると、"lost contact with quorum device" の後にノードがクォーラムを失い、クラスターサービスの実行が維持されたり別のノードにリロケートされず停止します。
Aug  1 03:32:23 node1 kernel: qla2xxx 0000:04:00.0:LOOP DOWN detected (4 3 0 0).
Aug  1 03:32:40 node1 openais[12015]:[logging.c:0042] lost contact with quorum device
Aug  1 03:32:40 node1 openais[12015]:[logging.c:0042] quorum lost, blocking activity
Aug  1 03:32:40 node1 clurgmgrd[12095]:<emerg> #1:Quorum Dissolved
Aug  1 03:32:40 node11 clurgmgrd[12095]:<debug> Emergency stop of service:myService
  • ノードがフェンスされると、スタンバイのノードがサービスを復旧しようとしますが、openais が "lost contact with quorum device" を報告してクォーラムが失われた後に、その復旧操作が失敗します。
Feb 19 20:56:25 node2 fenced[8126]: fence "node1" success      
Feb 19 20:56:27 node2 clurgmgrd[12213]:<notice> Taking over service service:myService from down member node1
Feb 19 20:56:29 node2 qdiskd[8108]:<info> Assuming master role
Feb 19 20:56:30 node2 openais[8075]:[CMAN ] lost contact with quorum device    
Feb 19 20:56:30 node2 openais[8075]:[CMAN ] quorum lost, blocking activity
Feb 19 20:56:30 node2 clurgmgrd[12213]:<emerg> #1:Quorum Dissolved       
Feb 19 20:56:30 node2 ccsd[8069]:Cluster is not quorate.Refusing connection.
Feb 19 20:56:30 node2 ccsd[8069]:Error while processing connect:Connection refused
Feb 19 20:56:30 node2 ccsd[8069]:Invalid descriptor specified (-111).
Feb 19 20:56:30 node2 ccsd[8069]:Someone may be attempting something evil.
Feb 19 20:56:30 node2 ccsd[8069]:Error while processing get:Invalid request descriptor
Feb 19 20:56:30 node2 ccsd[8069]:Invalid descriptor specified (-21).
Feb 19 20:56:30 node2 ccsd[8069]:Someone may be attempting something evil.
Feb 19 20:56:30 node2 ccsd[8069]:Error while processing disconnect:Invalid request descriptor
Feb 19 20:56:32 node2 qdiskd[8108]:<notice> Writing eviction notice for node 1
Feb 19 20:56:32 node2 openais[8075]:[CMAN ] quorum regained, resuming activity
Feb 19 20:56:33 node2 clurgmgrd[12213]:<err> #75:Failed changing service status  
  • 2 ノードの高可用性クラスターでクォーラムデバイスとの接続を失ったためサーバーが再起動されました。qdiskd の接続を失い、再起動する原因または理由は何ですか?
  • 両方のノードで eviction と qdisk の問題が見受けられ、ハングします。通常は各 Quorum Dissolution の前に以下のメッセージがログに記録されます。
node1 qdiskd[XXXX]: qdiskd on node 2 reports hung write()
node2 qdiskd[XXXX]: qdiskd on node 2 reports hung write()
  • qdisk がハングした原因は何ですか、そしてどのように回避できますか?

Environment

  • Red Hat Enterprise Linux (RHEL) 5 および High Availability アドオン
  • Red Hat Enterprise Linux (RHEL) 6 および High Availability アドオン
  • クォーラムデバイスまたは "QDisk" (/etc/cluster/cluster.conf<quorumd>) を利用する設定

Subscriber exclusive content

A Red Hat subscription provides unlimited access to our knowledgebase, tools, and much more.

Current Customers and Partners

Log in for full access

Log In