フェンシングがクラスターで失敗すると、lvm コマンドがハングアップし、GFS/GFS2 ファイルシステムが応答せず、クラスターオペレーションがハングアップする
Issue
GFS2
ファイルシステムがハングアップしました。この状況から回復するにはどうすれば良いですか? どのような解決方法がありますか?-
clvmd
を使用して、pvscan
コマンドと lvm コマンドを実行すると完全にハングアップします。# pvscan -vv Setting global/locking_type to 3 Setting global/wait_for_locks to 1 Cluster locking selected.
-
フェンシングが失敗すると、GFS ファイルシステムまたは GFS2 ファイルシステムへのアクセスがハングアップするのはなぜですか?
- ノードがクラッシュするか、応答しなくなったあと、クラスターが操作できなくなるのはなぜですか?
-
クラスターによってノードがフェンスされなくなると、いずれのノードで
clvmd
が起動できませんでした。Oct 25 08:25:51 node1 fenced[4671]: fence node3.example.com failed Oct 25 08:25:54 node1 fenced[4671]: fencing node node3.example.com Oct 25 08:26:11 node1 fenced[4671]: fence node3.example.com dev 0.0 agent fence_ipmilan result: error from agent # service clvmd start Starting clvmd: clvmd startup timed out
-
クラスターでフェンシングに失敗したあと、
rgmanager
、clvmd
、gfs2_quotad
などのサービスやプロセス、またはクラスターインフラストラクチャーにアクセスまたは使用するその他のプロセスがブロックされます。Apr 7 22:55:03 node1 kernel:INFO: task rgmanager:6739 blocked for more than 120 seconds. Apr 7 22:55:03 node1 kernel:"echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message. Apr 7 22:55:03 node1 kernel: rgmanager D ffff88071fc28400 0 6739 6738 0x10000080 Apr 7 22:55:03 node1 kernel: ffff880d85b59d48 0000000000000082 0000000000000000 ffff880d8cf19918 Apr 7 22:55:03 node1 kernel: ffff880d85b02d80 0000000000000001 ffff880d85b01ff8 00007fffbffb00e0 Apr 7 22:55:03 node1 kernel: ffff880d85b21a78 ffff880d85b59fd8 000000000000f4e8 ffff880d85b21a78 Apr 7 22:55:03 node1 kernel:Call Trace: Apr 7 22:55:03 node1 kernel:[<ffffffff814ee0ae>] __mutex_lock_slowpath+0x13e/0x180 Apr 7 22:55:03 node1 kernel:[<ffffffff814edf4b>] mutex_lock+0x2b/0x50 Apr 7 22:55:03 node1 kernel:[<ffffffffa076c92c>] dlm_new_lockspace+0x3c/0xa30 [dlm] Apr 7 22:55:03 node1 kernel:[<ffffffff8115f40c>] ?__kmalloc+0x20c/0x220 Apr 7 22:55:03 node1 kernel:[<ffffffffa077594d>] device_write+0x30d/0x7d0 [dlm] Apr 7 22:55:03 node1 kernel:[<ffffffff810eab02>] ? ring_buffer_lock_reserve+0xa2/0x160 Apr 7 22:55:03 node1 kernel:[<ffffffff810d46e2>] ? audit_syscall_entry+0x272/0x2a0 Apr 7 22:55:03 node1 kernel:[<ffffffff8120c3c6>] ? security_file_permission+0x16/0x20 Apr 7 22:55:03 node1 kernel:[<ffffffff811765d8>] vfs_write+0xb8/0x1a0 Apr 7 22:55:03 node1 kernel:[<ffffffff81176fe1>] sys_write+0x51/0x90 Apr 7 22:55:03 node1 kernel:[<ffffffff8100b308>] tracesys+0xd9/0xde [...] Apr 7 23:19:30 node1 kernel:INFO: task clvmd:5603 blocked for more than 120 seconds. Apr 7 23:19:30 node1 kernel:"echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message. Apr 7 23:19:30 node1 kernel: clvmd D ffff88071fc28400 0 5603 1 0x10000080 Apr 7 23:19:30 node1 kernel: ffff88070a983d48 0000000000000086 0000000000000000 ffff8806f6149700 Apr 7 23:19:30 node1 kernel: ffff880d8d5842a8 0000000000000000 ffff88070a742cd8 00007f49b3655d50 Apr 7 23:19:30 node1 kernel: ffff8806f629fa78 ffff88070a983fd8 000000000000f4e8 ffff8806f629fa78 Apr 7 23:19:30 node1 kernel:Call Trace: Apr 7 23:19:30 node1 kernel:[<ffffffff814ee0ae>] __mutex_lock_slowpath+0x13e/0x180 Apr 7 23:19:30 node1 kernel:[<ffffffff814edf4b>] mutex_lock+0x2b/0x50 Apr 7 23:19:30 node1 kernel:[<ffffffffa077192c>] dlm_new_lockspace+0x3c/0xa30 [dlm] Apr 7 23:19:30 node1 kernel:[<ffffffff8115f40c>] ?__kmalloc+0x20c/0x220 Apr 7 23:19:30 node1 kernel:[<ffffffffa077a94d>] device_write+0x30d/0x7d0 [dlm] Apr 7 23:19:30 node1 kernel:[<ffffffff810eab02>] ? ring_buffer_lock_reserve+0xa2/0x160 Apr 7 23:19:30 node1 kernel:[<ffffffff810d46e2>] ? audit_syscall_entry+0x272/0x2a0 Apr 7 23:19:30 node1 kernel:[<ffffffff8120c3c6>] ? security_file_permission+0x16/0x20 Apr 7 23:19:30 node1 kernel:[<ffffffff811765d8>] vfs_write+0xb8/0x1a0 Apr 7 23:19:30 node1 kernel:[<ffffffff81176fe1>] sys_write+0x51/0x90 Apr 7 23:19:30 node1 kernel:[<ffffffff8100b308>] tracesys+0xd9/0xde
-
GFS ファイルシステムを使用している 2 ノード Red Hat Cluster があります。このシステムは、GFS がハングアップするため、週に 1 度再起動が必要です。メンバーがダウンした場合はクラスターがダウンし、再起動が必要になりますか?
- GFS2 ファイルシステムが頻繁にハングアップ状態になり、回復するにはクラスターノードを再起動する必要がありますか?
- GFS2 ファイルシステムがハングアップします。
Environment
- Red Hat Enterprise Linux 5 (および High Availability または Resilient Storage Add On)
- Red Hat Enterprise Linux 6 (および High Availability または Resilient Storage Add On)
Subscriber exclusive content
A Red Hat subscription provides unlimited access to our knowledgebase, tools, and much more.