Red Hat Enterprise Linux CoreOS 4.x でノードへの SSH アクセスを使用して sos レポートを生成する方法

- Red Hat OpenShift Container Platform (RHOCP、OCP)
- 4.x
- Red Hat Enterprise Linux CoreOS (RHCOS)


* Red Hat Enterprise Linux CoreOS 4.x で sos report を生成するにはどうすればよいですか?
* Red Hat OpenShift 4.x ノードの sos report を生成するにはどうすればよいですか?
* rhel7/support-tools イメージを使用して sos report を生成すると、トレースバックで失敗します。

    [root@ip-1-1-1-1 ~]# podman run -it /usr/bin/bash

    bash-4.2# sosreport 
    Traceback (most recent call last):
      File "/usr/sbin/sosreport", line 19, in <module>
      File "/usr/lib/python2.7/site-packages/sos/", line 1498, in main
        sos = SoSReport(args)
      File "/usr/lib/python2.7/site-packages/sos/", line 360, in __init__
        self.policy = sos.policies.load(sysroot=self.opts.sysroot)
      File "/usr/lib/python2.7/site-packages/sos/policies/", line 44, in load
        cache['policy'] = policy(sysroot=sysroot)
      File "/usr/lib/python2.7/site-packages/sos/policies/", line 258, in __init__
        super(RHELPolicy, self).__init__(sysroot=sysroot)
      File "/usr/lib/python2.7/site-packages/sos/policies/", line 58, in __init__
        sysroot = self._container_init()
      File "/usr/lib/python2.7/site-packages/sos/policies/", line 153, in _container_init
        host_tmp_dir = os.path.abspath(self._host_sysroot + self._tmp_dir)
    TypeError: unsupported operand type(s) for +: 'NoneType' and 'str'


重要事項: 設計上、OpenShift 4.x クラスターはイミュータブルであり、Operators に依存してクラスターの変更を適用します。つまり、SSH で基礎になるノードに直接アクセスすることは、推奨される手順ではないことを意味します。さらに、ノードは アクセス済み としてテイントされます。
したがって、可能な場合は常に、oc コマンドラインから直接デバッグ Pod を生成することにより、SSH を使用せずに sos report を生成します。詳細は、How to generate a sosreport within nodes without SSH in OCP 4 を参照してください。

SSH なしで sos report を生成 できない場合にのみ、SSH 経由で sos report が生成される OpenShift Container Platform4.x ノードに接続します。その後、roottoolbox コマンドを実行します。

$ ssh core@NODE # ssh with core user using ssh key specified in install-config.yaml
[core@node ~]$ sudo -i
[root@node ~]# toolbox 
Spawning a container 'toolbox-root' with image ''
Detected RUN label in the container image. Using that as the default...
Command: /proc/self/exe run -it --name toolbox-root --privileged --ipc=host --net=host --pid=host -e HOST=/host -e NAME=toolbox-root -e -v /run:/run -v /var/log:/var/log -v /etc/machine-id:/etc/machine-id -v /etc/localtime:/etc/localtime -v /:/host

注記: 切断された環境では、 をミラーリングする必要があります。イメージがすでに使用可能な場合は、toolbox を実行する前に、以下のようにノード内に /root/.toolboxrc ファイルを作成します。

$ vi /root/.toolboxrc

これで、CLI がコンテナー内の新しい bash セッションにアタッチされ、sos report を実行できるようになります。

[root@node ~]# sos report -k crio.all=on -k crio.logs=on  -k podman.all=on -k podman.logs=on

これにより、ホストの /var/tmp/ にマップされるコンテナーの /host/var/tmp ディレクトリーに sos report が生成されます。

sos report が作成されたら、exit を実行してコンテナーを終了します。

[root@node ~]# exit
[root@node ~]# 

Root Cause

toolbox コマンドは、podman container runlabel run を実行します。これは、RHEL Atomic Host の atomic run を置き換えるものです。

Diagnostic Steps

toolbox がデバッグコンテナーを想定どおりに起動しない場合は、REGISTRYIMAGE、または TOOLBOX_NAME オプションのデフォルト値をオーバーライドしている可能性のあるユーザー作成の $HOME/.toolboxrc を確認してください。

