Language:
Format:

5.2.4.2. etcd Pod がクラッシュループしている場合の正常でない etcd メンバーの置き換え

この手順では、etcd Pod がクラッシュループしている場合の正常でない etcd メンバーを置き換える手順を説明します。

前提条件

正常でない etcd メンバーを特定している。
etcd Pod がクラッシュループしていることを確認している。
cluster-admin ロールを持つユーザーとしてクラスターにアクセスできる。
etcd のバックアップを取得している。
重要
問題が発生した場合にクラスターを復元できるように、この手順を実行する前に etcd バックアップを作成しておくことは重要です。

手順

クラッシュループしている etcd Pod を停止します。
1. クラッシュループしているノードをデバッグします。
  クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。
```
$ oc debug node/ip-10-0-131-183.ec2.internal 1
```
  1
  これを正常でないノードの名前に置き換えます。
2. ルートディレクトリーをホストに切り替えます。
```
sh-4.2# chroot /host
```
3. 既存の etcd Pod ファイルを kubelet マニフェストディレクトリーから移動します。
```
sh-4.2# mkdir /var/lib/etcd-backup
```
```
sh-4.2# mv /etc/kubernetes/manifests/etcd-pod.yaml /var/lib/etcd-backup/
```
4. etcd データディレクトリーを別の場所に移動します。
```
sh-4.2# mv /var/lib/etcd/ /tmp
```
  これでノードシェルを終了できます。

正常でないメンバーを削除します。

影響を受けるノード上にない Pod を選択します。

クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。

$ oc get pods -n openshift-etcd | grep -v etcd-quorum-guard | grep etcd

出力例

etcd-ip-10-0-131-183.ec2.internal                2/3     Error       7          6h9m
etcd-ip-10-0-164-97.ec2.internal                 3/3     Running     0          6h6m
etcd-ip-10-0-154-204.ec2.internal                3/3     Running     0          6h6m

実行中の etcd コンテナーに接続し、影響を受けるノードにない Pod の名前を渡します。
クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。
```
$ oc rsh -n openshift-etcd etcd-ip-10-0-154-204.ec2.internal
```

メンバーの一覧を確認します。

sh-4.2# etcdctl member list -w table

出力例

+------------------+---------+------------------------------+---------------------------+---------------------------+
|        ID        | STATUS  |             NAME             |        PEER ADDRS         |       CLIENT ADDRS        |
+------------------+---------+------------------------------+---------------------------+---------------------------+
| 62bcf33650a7170a | started | ip-10-0-131-183.ec2.internal | https://10.0.131.183:2380 | https://10.0.131.183:2379 |
| b78e2856655bc2eb | started |  ip-10-0-164-97.ec2.internal |  https://10.0.164.97:2380 |  https://10.0.164.97:2379 |
| d022e10b498760d5 | started | ip-10-0-154-204.ec2.internal | https://10.0.154.204:2380 | https://10.0.154.204:2379 |
+------------------+---------+------------------------------+---------------------------+---------------------------+

これらの値はこの手順で後ほど必要となるため、ID および正常でない etcd メンバーの名前を書き留めておきます。

ID を etcdctl member remove コマンドに指定して、正常でない etcd メンバーを削除します。
```
sh-4.2# etcdctl member remove 62bcf33650a7170a
```
出力例
```
Member 62bcf33650a7170a removed from cluster ead669ce1fbfb346
```

メンバーの一覧を再度表示し、メンバーが削除されたことを確認します。

sh-4.2# etcdctl member list -w table

出力例

+------------------+---------+------------------------------+---------------------------+---------------------------+
|        ID        | STATUS  |             NAME             |        PEER ADDRS         |       CLIENT ADDRS        |
+------------------+---------+------------------------------+---------------------------+---------------------------+
| b78e2856655bc2eb | started |  ip-10-0-164-97.ec2.internal |  https://10.0.164.97:2380 |  https://10.0.164.97:2379 |
| d022e10b498760d5 | started | ip-10-0-154-204.ec2.internal | https://10.0.154.204:2380 | https://10.0.154.204:2379 |
+------------------+---------+------------------------------+---------------------------+---------------------------+

これでノードシェルを終了できます。

削除された正常でない etcd メンバーの古いシークレットを削除します。
1. 削除された正常でない etcd メンバーのシークレットを一覧表示します。
```
$ oc get secrets -n openshift-etcd | grep ip-10-0-131-183.ec2.internal 1
```
  1
  この手順で先ほど書き留めた正常でない etcd メンバーの名前を渡します。
  以下の出力に示されるように、ピア、サービング、およびメトリクスシークレットがあります。
  出力例
```
etcd-peer-ip-10-0-131-183.ec2.internal              kubernetes.io/tls                     2      47m
etcd-serving-ip-10-0-131-183.ec2.internal           kubernetes.io/tls                     2      47m
etcd-serving-metrics-ip-10-0-131-183.ec2.internal   kubernetes.io/tls                     2      47m
```
2. 削除された正常でない etcd メンバーのシークレットを削除します。
  1. ピアシークレットを削除します。
    $ oc delete secret -n openshift-etcd etcd-peer-ip-10-0-131-183.ec2.internal
  2. 提供シークレットを削除します。
    $ oc delete secret -n openshift-etcd etcd-serving-ip-10-0-131-183.ec2.internal
  3. メトリクスシークレットを削除します。
    $ oc delete secret -n openshift-etcd etcd-serving-metrics-ip-10-0-131-183.ec2.internal
etcd の再デプロイメントを強制的に実行します。
クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。
```
$ oc patch etcd cluster -p='{"spec": {"forceRedeploymentReason": "single-master-recovery-'"$( date --rfc-3339=ns )"'"}}' --type=merge 1
```
1
forceRedeploymentReason 値は一意である必要があります。そのため、タイムスタンプが付加されます。
etcd クラスター Operator が再デプロイを実行する場合、すべてのコントロールプレーンノード (別名マスターノード) に機能する etcd Pod があることを確認します。

検証

新しいメンバーが利用可能で、正常な状態にあることを確認します。

再度実行中の etcd コンテナーに接続します。
クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。
```
$ oc rsh -n openshift-etcd etcd-ip-10-0-154-204.ec2.internal
```

すべてのメンバーが正常であることを確認します。

sh-4.2# etcdctl endpoint health --cluster

出力例

https://10.0.131.183:2379 is healthy: successfully committed proposal: took = 16.671434ms
https://10.0.154.204:2379 is healthy: successfully committed proposal: took = 16.698331ms
https://10.0.164.97:2379 is healthy: successfully committed proposal: took = 16.621645ms

Select Your Language

5.2.4.2. etcd Pod がクラッシュループしている場合の正常でない etcd メンバーの置き換え

Quick Links

Help

Site Info

Related Sites

About

Red Hat legal and privacy links

Red Hat legal and privacy links

Language and Page Formatting Options

5.2.4.2. etcd Pod がクラッシュループしている場合の正常でない etcd メンバーの置き換え

Quick Links

Help

Site Info

Related Sites

Systems Status

About

Red Hat legal and privacy links

Red Hat legal and privacy links