4.4.17. トラブルシューティング

  1. GFIDの不一致が原因で、HAエージェントが相互に同期しないことがあります。

    1. 適切な入出力エラー/var/log/ovirt-hosted-engine-ha/broker.logに表示されます。

      # grep -i  error /var/log/ovirt-hosted-engine-ha/broker.log
      
      MainThread::ERROR::2020-07-13 06:25:16,188::broker::69::ovirt_hosted_engine_ha.broker.broker.Broker::(run) Failed initializing the broker: [Errno 5] Input/output error: '/rhev/data-center/mnt/glusterSD/rhsqa-grafton10.lab.eng.blr.redhat.com:_newengine/1d94d115-8ddd-41c9-bd9c-477347e95ad4/ha_agent/hosted-engine.lockspace'
    2. 次のコマンドを実行して、ボリュームにGFIDの不一致がないか確認します。

      # grep -i ‘gfid mismatch’ /var/log/glusterfs/rhev*
      
      Example:
      # grep -i 'gfid mismatch' /var/log/glusterfs/rhev*
      
      /var/log/glusterfs/rhev-data-center-mnt-glusterSD-rhsqa-grafton10.lab.eng.blr.redhat.com:_newengine.log:[2020-07-13 06:14:12.992345] E [MSGID: 108008] [afr-self-heal-common.c:392:afr_gfid_split_brain_source] 0-newengine-replicate-0: Gfid mismatch detected for <gfid:580f8fe2-a42f-4f62-a5b0-7591c3740885>/hosted-engine.metadata>, d6a1fe1d-fc04-48cc-953f-d195d40749c1 on newengine-client-1 and c5e89641-e08f-462f-85ab-13518c21b7dc on newengine-client-0.
    3. GFIDの不一致として表示されたエントリーがある場合は、GFIDのスプリットブレインを解決してください。

      # gluster volume heal <volume> split-brain latest-mtime <relative_path_of_file_in_brick>
      
      Example:
      # gluster volume heal newengine split-brain latest-mtime /1d94d115-8ddd-41c9-bd9c-477347e95ad4/ha_agent/hosted-engine.lockspace
  2. RHV 管理ポータルで、gluster ボリュームの状態が degraded と表示され、アップグレードしたノードのブリックの 1 つが down しています。

    1. ハイパーコンバージドホストの gluseter コマンドラインから gluster ボリュームのステータスを確認します。アップグレードして再起動されたノードに対応するブリックエントリーが表示され、ブリックのプロセスとポートがN/A となっています。

      次の例では、ホストrhvh2.example.comのプロセスIDやポート情報がないことに注意してください。

      # gluster volume status engine
      
      Example:
      Status of volume: engine
      Gluster process                             TCP Port  RDMA Port
      ---------------------------------------------------------------
      Brick rhvh1.example.com:/gluster_bricks/eng
      ine/engine                                   49158     0
      Brick rhvh2.example.com:/gluster_bricks/eng
      ine/engine                                   N/A       N/A
      Brick rhvh3.example.com:/gluster_bricks/eng
      ine/engine                                   49152     0
      Self-heal Daemon on localhost                N/A       N/A
      Self-heal Daemon on rhvh2.example.com        N/A       N/A
      Self-heal Daemon on rhvh3.example.com        N/A       N/A
      
      Online  Pid
      ------------
      Y       94365
      Y       11052
      Y       31153
      Y       128608
      Y       11838
      Y       9806
      
      Task Status of Volume engine
      ------------------------------------------------------------------
      There are no active volume tasks
    2. この問題を解決するには、ブリックプロセスを強制終了し、glusterfsdサービスを再起動してください。

       # pkill glusterfsd
       # systemctl restart glusterd
    3. gluster volume status を再度確認し、すべてのブリックエントリにブリックプロセスIDとポート情報が含まれていることを確認します。この情報がRHV管理ポータルに反映されるまで、数分待ちます。

      # gluster volume status engine