RHEL High Availability クラスターが形成されても数分後に失敗する理由、マルチキャスト通信が短時間で機能しなくなる理由
Issue
- クラスターは短時間動作しますが、数分後にすべてが突然動作しなくなります。
- クラスターは定足数を満たしたクラスターを形成せず、失敗し、/var/log/messages に
Retransmit Listメッセージが記録されることがあります。 - クラスターは形成されますが、すぐに失敗します。または、gfs2 ボリュームをマウントしたり、サービスをフェイルオーバーすると失敗します。
- "Retransmit List" メッセージが頻繁にクラスター上で表示され、リスト内のエントリーは削除されず、リストは拡大し続けます。
Jun 10 14:46:24 node1 corosync[3266]: [TOTEM ] Retransmit List: 5e
Jun 10 14:46:24 node1 corosync[3266]: [TOTEM ] Retransmit List: 5e 5f
Jun 10 14:46:24 node1 corosync[3266]: [TOTEM ] Retransmit List: 5e 5f 60
Jun 10 14:46:24 node1 corosync[3266]: [TOTEM ] Retransmit List: 5e 5f 60 61
Jun 10 14:46:24 node1 corosync[3266]: [TOTEM ] Retransmit List: 5e 5f 60 61 62
Jun 10 14:46:24 node1 corosync[3266]: [TOTEM ] Retransmit List: 5e 5f 60 61 62 63
Jun 10 14:46:24 node1 corosync[3266]: [TOTEM ] Retransmit List: 5e 5f 60 61 62 63 64
- クラスターサービスの状態を変更しようとすると、"Retransmit List" の長い文字列が表示され、"Failed changing RG status" が表示されて操作が失敗します。
Jun 10 14:46:24 node1 corosync[3266]: [TOTEM ] Retransmit List: 5e 5f 60 61 62 63 64 65 66
Jun 10 14:46:24 node1 corosync[3266]: [TOTEM ] Retransmit List: 5e 5f 60 61 62 63 64 65 66
Jun 10 14:46:24 node1 rgmanager[4241]: #55: Failed changing RG status
- クラスターにはマルチキャストの問題があるようで、マルチキャストをテスト しましたが正常に動作しているようです。
- 3 つのメンバーからなるペースメーカークラスターを作成しました。問題は、1 つのメンバーが他のメンバーをオンラインで確認できなくなってしまったことです。このことから、クラスターが分割され、リソースを開始するためのクォーラムがないと想定されますか?
- クラスター機能のテストの一環として、2 ノードクラスター内の 1 つのサーバーの電源をオフにしました。電源をオフにしたサーバーは自動的に起動しました。これは、フェンシングアカウントがサーバーを起動するようにリセットしたためだと理解しています。しかし、サーバーが起動すると他のノードも再起動され、アプリケーションが停止しました。この問題の原因は何でしょうか?
- RHEL6.5 で 2 ノードクラスター (クォーラムなし) を作成すると、適切に設定できます。しかし、サーバーを再起動してしばらく経つと、クラスターノードがクラスター化されず、各ノードがスタンドアロンクラスターを形成し、
clustatではそれ自体はオンライン、他のノードはオフラインとして表示されます。
Environment
- Red Hat Enterprise Linux (RHEL) 5、6、7 (High Availability アドオン使用)
Subscriber exclusive content
A Red Hat subscription provides unlimited access to our knowledgebase, tools, and much more.