Translated message

A translation of this page exists in English.

RHEL 5 または 6 クラスターノードで "lost contact with quorum device" メッセージが表示される

Solution Verified - Updated 2015-08-26T08:31:18+00:00 -

Issue

クラスターノードの再起動、削除、またクラスターからノードのフェンスが行われると、クラスターノードがクォーラムを失います。
クォーラムディスクの接続が失われ、ノードが再起動されました。cman の quorum_dev_poll 設定に何を指定するべきですか?
クラスターがクォーラムデバイスへの接続を失い、クラスターノードが再起動されました。

        openais[11663]:[CMAN ] lost contact with quorum device
        openais[11664]:[CMAN ] cman killed by node 1 because we were killed by cman_tool or other application

クォーラムデバイスへのマルチパスマップで 1 つのパスを切断すると、"lost contact with quorum device" の後にノードがクォーラムを失い、クラスターサービスの実行が維持されたり別のノードにリロケートされず停止します。

Aug  1 03:32:23 node1 kernel: qla2xxx 0000:04:00.0:LOOP DOWN detected (4 3 0 0).
Aug  1 03:32:40 node1 openais[12015]:[logging.c:0042] lost contact with quorum device
Aug  1 03:32:40 node1 openais[12015]:[logging.c:0042] quorum lost, blocking activity
Aug  1 03:32:40 node1 clurgmgrd[12095]:<emerg> #1:Quorum Dissolved
Aug  1 03:32:40 node11 clurgmgrd[12095]:<debug> Emergency stop of service:myService

ノードがフェンスされると、スタンバイのノードがサービスを復旧しようとしますが、openais が "lost contact with quorum device" を報告してクォーラムが失われた後に、その復旧操作が失敗します。

Feb 19 20:56:25 node2 fenced[8126]: fence "node1" success      
Feb 19 20:56:27 node2 clurgmgrd[12213]:<notice> Taking over service service:myService from down member node1
Feb 19 20:56:29 node2 qdiskd[8108]:<info> Assuming master role
Feb 19 20:56:30 node2 openais[8075]:[CMAN ] lost contact with quorum device    
Feb 19 20:56:30 node2 openais[8075]:[CMAN ] quorum lost, blocking activity
Feb 19 20:56:30 node2 clurgmgrd[12213]:<emerg> #1:Quorum Dissolved       
Feb 19 20:56:30 node2 ccsd[8069]:Cluster is not quorate.Refusing connection.
Feb 19 20:56:30 node2 ccsd[8069]:Error while processing connect:Connection refused
Feb 19 20:56:30 node2 ccsd[8069]:Invalid descriptor specified (-111).
Feb 19 20:56:30 node2 ccsd[8069]:Someone may be attempting something evil.
Feb 19 20:56:30 node2 ccsd[8069]:Error while processing get:Invalid request descriptor
Feb 19 20:56:30 node2 ccsd[8069]:Invalid descriptor specified (-21).
Feb 19 20:56:30 node2 ccsd[8069]:Someone may be attempting something evil.
Feb 19 20:56:30 node2 ccsd[8069]:Error while processing disconnect:Invalid request descriptor
Feb 19 20:56:32 node2 qdiskd[8108]:<notice> Writing eviction notice for node 1
Feb 19 20:56:32 node2 openais[8075]:[CMAN ] quorum regained, resuming activity
Feb 19 20:56:33 node2 clurgmgrd[12213]:<err> #75:Failed changing service status

2 ノードの高可用性クラスターでクォーラムデバイスとの接続を失ったためサーバーが再起動されました。qdiskd の接続を失い、再起動する原因または理由は何ですか?
両方のノードで eviction と qdisk の問題が見受けられ、ハングします。通常は各 Quorum Dissolution の前に以下のメッセージがログに記録されます。

node1 qdiskd[XXXX]: qdiskd on node 2 reports hung write()
node2 qdiskd[XXXX]: qdiskd on node 2 reports hung write()

qdisk がハングした原因は何ですか、そしてどのように回避できますか?

Environment

Red Hat Enterprise Linux (RHEL) 5 および High Availability アドオン
Red Hat Enterprise Linux (RHEL) 6 および High Availability アドオン
クォーラムデバイスまたは "QDisk" (/etc/cluster/cluster.conf の <quorumd>) を利用する設定

Subscriber exclusive content

A Red Hat subscription provides unlimited access to our knowledgebase, tools, and much more.

Select Your Language

Translated message

RHEL 5 または 6 クラスターノードで "lost contact with quorum device" メッセージが表示される

Issue

Environment

Subscriber exclusive content

Current Customers and Partners

New to Red Hat?

Using a Red Hat product through a public cloud?

Quick Links

Help

Site Info

Related Sites

About

Red Hat legal and privacy links

Red Hat legal and privacy links

Translated message

Issue

Environment

Subscriber exclusive content

Current Customers and Partners

New to Red Hat?

Using a Red Hat product through a public cloud?

Quick Links

Help

Site Info

Related Sites

Systems Status

About

Red Hat legal and privacy links

Red Hat legal and privacy links