Translated message

A translation of this page exists in English.

フェンシングがクラスターで失敗すると、lvm コマンドがハングアップし、GFS/GFS2 ファイルシステムが応答せず、クラスターオペレーションがハングアップする

Solution Verified - Updated 2017-01-25T08:08:43+00:00 -

Issue

GFS2 ファイルシステムがハングアップしました。この状況から回復するにはどうすれば良いですか? どのような解決方法がありますか?
clvmd を使用して、pvscan コマンドと lvm コマンドを実行すると完全にハングアップします。
```
# pvscan -vv
Setting global/locking_type to 3
Setting global/wait_for_locks to 1
Cluster locking selected.
```
フェンシングが失敗すると、GFS ファイルシステムまたは GFS2 ファイルシステムへのアクセスがハングアップするのはなぜですか?
ノードがクラッシュするか、応答しなくなったあと、クラスターが操作できなくなるのはなぜですか?

クラスターによってノードがフェンスされなくなると、いずれのノードで clvmd が起動できませんでした。

Oct 25 08:25:51 node1 fenced[4671]: fence node3.example.com failed
Oct 25 08:25:54 node1 fenced[4671]: fencing node node3.example.com
Oct 25 08:26:11 node1 fenced[4671]: fence node3.example.com dev 0.0 agent fence_ipmilan result: error from agent

# service clvmd start
Starting clvmd: clvmd startup timed out

クラスターでフェンシングに失敗したあと、rgmanager、clvmd、gfs2_quotad などのサービスやプロセス、またはクラスターインフラストラクチャーにアクセスまたは使用するその他のプロセスがブロックされます。

Apr  7 22:55:03 node1 kernel:INFO: task rgmanager:6739 blocked for more than 120 seconds.
Apr  7 22:55:03 node1 kernel:"echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
Apr  7 22:55:03 node1 kernel: rgmanager     D ffff88071fc28400     0  6739   6738 0x10000080
Apr  7 22:55:03 node1 kernel: ffff880d85b59d48 0000000000000082 0000000000000000 ffff880d8cf19918
Apr  7 22:55:03 node1 kernel: ffff880d85b02d80 0000000000000001 ffff880d85b01ff8 00007fffbffb00e0
Apr  7 22:55:03 node1 kernel: ffff880d85b21a78 ffff880d85b59fd8 000000000000f4e8 ffff880d85b21a78
Apr  7 22:55:03 node1 kernel:Call Trace:
Apr  7 22:55:03 node1 kernel:[<ffffffff814ee0ae>] __mutex_lock_slowpath+0x13e/0x180
Apr  7 22:55:03 node1 kernel:[<ffffffff814edf4b>] mutex_lock+0x2b/0x50
Apr  7 22:55:03 node1 kernel:[<ffffffffa076c92c>] dlm_new_lockspace+0x3c/0xa30 [dlm]
Apr  7 22:55:03 node1 kernel:[<ffffffff8115f40c>] ?__kmalloc+0x20c/0x220
Apr  7 22:55:03 node1 kernel:[<ffffffffa077594d>] device_write+0x30d/0x7d0 [dlm]
Apr  7 22:55:03 node1 kernel:[<ffffffff810eab02>] ? ring_buffer_lock_reserve+0xa2/0x160
Apr  7 22:55:03 node1 kernel:[<ffffffff810d46e2>] ? audit_syscall_entry+0x272/0x2a0
Apr  7 22:55:03 node1 kernel:[<ffffffff8120c3c6>] ? security_file_permission+0x16/0x20
Apr  7 22:55:03 node1 kernel:[<ffffffff811765d8>] vfs_write+0xb8/0x1a0
Apr  7 22:55:03 node1 kernel:[<ffffffff81176fe1>] sys_write+0x51/0x90
Apr  7 22:55:03 node1 kernel:[<ffffffff8100b308>] tracesys+0xd9/0xde
[...]   
Apr  7 23:19:30 node1 kernel:INFO: task clvmd:5603 blocked for more than 120 seconds.
Apr  7 23:19:30 node1 kernel:"echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
Apr  7 23:19:30 node1 kernel: clvmd         D ffff88071fc28400     0  5603      1 0x10000080
Apr  7 23:19:30 node1 kernel: ffff88070a983d48 0000000000000086 0000000000000000 ffff8806f6149700
Apr  7 23:19:30 node1 kernel: ffff880d8d5842a8 0000000000000000 ffff88070a742cd8 00007f49b3655d50
Apr  7 23:19:30 node1 kernel: ffff8806f629fa78 ffff88070a983fd8 000000000000f4e8 ffff8806f629fa78
Apr  7 23:19:30 node1 kernel:Call Trace:
Apr  7 23:19:30 node1 kernel:[<ffffffff814ee0ae>] __mutex_lock_slowpath+0x13e/0x180
Apr  7 23:19:30 node1 kernel:[<ffffffff814edf4b>] mutex_lock+0x2b/0x50
Apr  7 23:19:30 node1 kernel:[<ffffffffa077192c>] dlm_new_lockspace+0x3c/0xa30 [dlm]
Apr  7 23:19:30 node1 kernel:[<ffffffff8115f40c>] ?__kmalloc+0x20c/0x220
Apr  7 23:19:30 node1 kernel:[<ffffffffa077a94d>] device_write+0x30d/0x7d0 [dlm]
Apr  7 23:19:30 node1 kernel:[<ffffffff810eab02>] ? ring_buffer_lock_reserve+0xa2/0x160
Apr  7 23:19:30 node1 kernel:[<ffffffff810d46e2>] ? audit_syscall_entry+0x272/0x2a0
Apr  7 23:19:30 node1 kernel:[<ffffffff8120c3c6>] ? security_file_permission+0x16/0x20
Apr  7 23:19:30 node1 kernel:[<ffffffff811765d8>] vfs_write+0xb8/0x1a0
Apr  7 23:19:30 node1 kernel:[<ffffffff81176fe1>] sys_write+0x51/0x90
Apr  7 23:19:30 node1 kernel:[<ffffffff8100b308>] tracesys+0xd9/0xde

GFS ファイルシステムを使用している 2 ノード Red Hat Cluster があります。このシステムは、GFS がハングアップするため、週に 1 度再起動が必要です。メンバーがダウンした場合はクラスターがダウンし、再起動が必要になりますか?
GFS2 ファイルシステムが頻繁にハングアップ状態になり、回復するにはクラスターノードを再起動する必要がありますか?
GFS2 ファイルシステムがハングアップします。

Environment

Red Hat Enterprise Linux 5 (および High Availability または Resilient Storage Add On)
Red Hat Enterprise Linux 6 (および High Availability または Resilient Storage Add On)

Subscriber exclusive content

A Red Hat subscription provides unlimited access to our knowledgebase, tools, and much more.

Select Your Language

Translated message

フェンシングがクラスターで失敗すると、lvm コマンドがハングアップし、GFS/GFS2 ファイルシステムが応答せず、クラスターオペレーションがハングアップする

Issue

Environment

Subscriber exclusive content

Current Customers and Partners

New to Red Hat?

Using a Red Hat product through a public cloud?

Quick Links

Help

Site Info

Related Sites

About

Red Hat legal and privacy links

Red Hat legal and privacy links

Translated message

Issue

Environment

Subscriber exclusive content

Current Customers and Partners

New to Red Hat?

Using a Red Hat product through a public cloud?

Quick Links

Help

Site Info

Related Sites

Systems Status

About

Red Hat legal and privacy links

Red Hat legal and privacy links