4.4.17. トラブルシューティング
GFIDの不一致が原因で、HAエージェントが相互に同期しないことがあります。
適切な入出力エラーが
/var/log/ovirt-hosted-engine-ha/broker.logに表示されます。# grep -i error /var/log/ovirt-hosted-engine-ha/broker.log MainThread::ERROR::2020-07-13 06:25:16,188::broker::69::ovirt_hosted_engine_ha.broker.broker.Broker::(run) Failed initializing the broker: [Errno 5] Input/output error: '/rhev/data-center/mnt/glusterSD/rhsqa-grafton10.lab.eng.blr.redhat.com:_newengine/1d94d115-8ddd-41c9-bd9c-477347e95ad4/ha_agent/hosted-engine.lockspace'
次のコマンドを実行して、ボリュームにGFIDの不一致がないか確認します。
# grep -i ‘gfid mismatch’ /var/log/glusterfs/rhev* Example: # grep -i 'gfid mismatch' /var/log/glusterfs/rhev* /var/log/glusterfs/rhev-data-center-mnt-glusterSD-rhsqa-grafton10.lab.eng.blr.redhat.com:_newengine.log:[2020-07-13 06:14:12.992345] E [MSGID: 108008] [afr-self-heal-common.c:392:afr_gfid_split_brain_source] 0-newengine-replicate-0: Gfid mismatch detected for <gfid:580f8fe2-a42f-4f62-a5b0-7591c3740885>/hosted-engine.metadata>, d6a1fe1d-fc04-48cc-953f-d195d40749c1 on newengine-client-1 and c5e89641-e08f-462f-85ab-13518c21b7dc on newengine-client-0.
GFIDの不一致として表示されたエントリーがある場合は、GFIDのスプリットブレインを解決してください。
# gluster volume heal <volume> split-brain latest-mtime <relative_path_of_file_in_brick> Example: # gluster volume heal newengine split-brain latest-mtime /1d94d115-8ddd-41c9-bd9c-477347e95ad4/ha_agent/hosted-engine.lockspace
RHV 管理ポータルで、gluster ボリュームの状態が degraded と表示され、アップグレードしたノードのブリックの 1 つが
downしています。ハイパーコンバージドホストの gluseter コマンドラインから gluster ボリュームのステータスを確認します。アップグレードして再起動されたノードに対応するブリックエントリーが表示され、ブリックのプロセスとポートがN/A となっています。
次の例では、ホストrhvh2.example.comのプロセスIDやポート情報がないことに注意してください。
# gluster volume status engine Example: Status of volume: engine Gluster process TCP Port RDMA Port --------------------------------------------------------------- Brick rhvh1.example.com:/gluster_bricks/eng ine/engine 49158 0 Brick rhvh2.example.com:/gluster_bricks/eng ine/engine N/A N/A Brick rhvh3.example.com:/gluster_bricks/eng ine/engine 49152 0 Self-heal Daemon on localhost N/A N/A Self-heal Daemon on rhvh2.example.com N/A N/A Self-heal Daemon on rhvh3.example.com N/A N/A Online Pid ------------ Y 94365 Y 11052 Y 31153 Y 128608 Y 11838 Y 9806 Task Status of Volume engine ------------------------------------------------------------------ There are no active volume tasks
この問題を解決するには、ブリックプロセスを強制終了し、
glusterfsdサービスを再起動してください。# pkill glusterfsd # systemctl restart glusterd
gluster volume statusを再度確認し、すべてのブリックエントリにブリックプロセスIDとポート情報が含まれていることを確認します。この情報がRHV管理ポータルに反映されるまで、数分待ちます。# gluster volume status engine