Red Hat Training

A Red Hat training course is available for Red Hat Ceph Storage

故障排除指南

Red Hat Ceph Storage 3

Red Hat Ceph Storage 故障排除

摘要

本文档描述了如何使用 Red Hat Ceph Storage 解决常见问题。

第 1 章 初始故障排除

本章包含以下内容的信息:

1.1. 识别问题

要确定遇到的 Red Hat Ceph Storage 出错的原因,请回答以下问题:

  1. 使用不受支持的配置时可能会产生某些问题。确保您的配置被支持。详情请参阅 Red Hat Ceph Storage: 支持的配置 文章。
  2. 您知道哪个 Ceph 组件导致了此问题吗?

1.1.1. 诊断 Ceph 存储集群的健康状况

此流程列出了诊断 Ceph 存储集群健康状况的基本步骤。

  1. 检查集群的整体状态:

    # ceph health detail

    如果命令返回 HEALTH_WARNHEALTH_ERR,详情请参阅 第 1.2 节 “了解 ceph health 命令的输出”

  2. 检查 Ceph 日志中是否列出 第 1.3 节 “了解 Ceph 日志” 中列出的任何错误消息。日志默认位于 /var/log/ceph/ 目录中。
  3. 如果日志没有包含足够数量的信息,提高调试级别并尝试重现失败的操作。详情请查看 第 2 章 配置日志记录
  4. 使用 ceph-medic 实用程序诊断存储集群。如需了解更多详细信息 ,请参阅《红帽 Ceph 存储 3 管理指南》的使用 ceph-medic 诊断 Ceph 存储集群 部分。

1.2. 了解 ceph health 命令的输出

ceph health 命令返回有关 Ceph 存储集群状态的信息:

  • HEALTH_OK 表示集群处于健康状态。
  • HEALTH_WARN 表示警告。在某些情况下,Ceph 状态会自动返回到 HEALTH_OK,例如当 Ceph 完成重新平衡过程时。但是,如果集群处于 HEALTH_WARN 状态较长,请考虑进一步排除故障。
  • HEALTH_ERR 表示需要您立即关注的更严重问题。

使用 ceph health detailceph -s 命令获取更详细的输出。

下表列出了与 monitor、OSD 和 PG 相关的最常见 HEALTH_ERRHEALTH_WARN 错误消息。这些表中提供了相应的部分的链接,这些部分解释了错误并指向修复问题的特定程序。

表 1.1. 与 monitor 相关的错误消息

错误消息请查看

HEALTH_WARN

mon.X is down (out of quorum)

第 4.1.1 节 “Quorum 以外的 monitor”

clock skew

第 4.1.2 节 “时钟偏移”

store is getting too big!

第 4.1.3 节 “monitor 存储正在获取 Too Big”

表 1.2. 与 Ceph 管理器守护进程相关的错误消息

错误消息请查看

HEALTH_WARN

unknown pgs

为 Ceph Manager 打开端口

表 1.4. 与 PG 相关的错误消息

1.3. 了解 Ceph 日志

默认情况下,Ceph 将其日志存储在 /var/log/ceph/ 目录中。

<cluster-name>.log 是包含全局集群事件的主要集群日志文件。默认情况下,这个日志名为 ceph.log。只有 monitor 主机包含主要的集群日志。

每一 OSD 和 monitor 具有自己的日志文件,名为 <cluster-name>-osd.<number>.log<cluster-name>-mon.<hostname>.log

当您提高 Ceph 子系统的调试级别时,Ceph 也为这些子系统生成新的日志文件。有关日志的详情请参考 第 2 章 配置日志记录

下表列出了与 monitor 和 OSD 相关的最常见 Ceph 日志消息:这些表中提供了相应的部分的链接,这些部分解释了错误并指向修复它们的特定程序。

表 1.5. Ceph 日志中与 monitor 相关的常见错误消息

错误消息日志文件请查看

clock skew

主集群日志

第 4.1.2 节 “时钟偏移”

clocks not synchronized

主集群日志

第 4.1.2 节 “时钟偏移”

Corruption: error in middle of record

监控日志

第 4.1.1 节 “Quorum 以外的 monitor”

第 4.3 节 “恢复 monitor 存储”

Corruption: 1 missing files

监控日志

第 4.1.1 节 “Quorum 以外的 monitor”

第 4.3 节 “恢复 monitor 存储”

Caught signal (Bus error)

监控日志

第 4.1.1 节 “Quorum 以外的 monitor”

表 1.6. 与 OSD 相关的 Ceph 日志中的常见错误消息

错误消息日志文件请查看

heartbeat_check: no reply from osd.X

主集群日志

第 5.1.4 节 “Flapping OSD”

wrongly marked me down

主集群日志

第 5.1.4 节 “Flapping OSD”

osds have slow requests

主集群日志

第 5.1.5 节 “请求速度较慢,请求被阻塞”

FAILED assert(!m_filestore_fail_eio)

OSD 日志

第 5.1.3 节 “个或更多 OSD 发生故障”

FAILED assert(0 == "hit suicide timeout")

OSD 日志

第 5.1.3 节 “个或更多 OSD 发生故障”

第 2 章 配置日志记录

本章介绍如何为各种 Ceph 子系统配置日志记录。

重要

日志记录非常耗费资源。另外,详细日志记录可以在相对较短的时间内生成大量数据。您在集群的特定子系统中遇到问题,仅启用该子系统的日志记录。如需更多信息,请参阅 第 2.1 节 “Ceph 子系统”

此外,还要考虑设置日志文件轮转。详情请查看 第 2.4 节 “加快日志轮转”

修复遇到的任何问题后,将子系统日志和内存级别更改为默认值。有关所有 Ceph 子系统及其默认值的列表,请参见 附录 A, 子系统默认日志记录级别值

您可以通过以下方法配置 Ceph 日志:

2.1. Ceph 子系统

本节包含 Ceph 子系统及其日志记录级别的信息。

了解 Ceph 子系统及其日志记录级别

Ceph 由多个子系统组成:每个子系统都有其日志记录级别:

  • 输出默认存储在 /var/log/ceph/ 目录中的日志(日志级别)
  • 存储在内存缓存中的日志(内存级别)

通常,Ceph 不会将内存中存储的日志发送到输出日志,除非:

  • 引发致命信号
  • 源代码中触发了 assert
  • 您请求它

您可以为每个子系统设置不同的值。Ceph 日志记录级别按 120 的规模运行,其中 1 是 terse,20 详细。

对日志级别和内存级别使用单个值,以将它们都设置为相同的值。例如: debug_osd = 5ceph-osd 守护进程的 debug 级别设置为 5

要将不同的值用于输出日志级别和内存级别,请使用正斜杠(/)来分隔值。例如,debug_mon = 1/5ceph-mon 守护进程的 debug 日志级别设置为 1,并将其内存日志级别设置为 5

最常用的 Ceph 子系统及其默认值

子系统日志级别内存级别描述

asok

1

5

管理套接字

auth

1

5

Authentication

client

0

5

任何使用 librados 连接到集群的应用程序或库

filestore

1

5

FileStore OSD 后端

journal

1

5

OSD 日志

mds

1

5

元数据服务器

monc

0

5

monitor 客户端处理大部分 Ceph 守护进程和 monitor 之间的通信

mon

1

5

monitor

ms

0

5

Ceph 组件之间的消息传递系统

osd

0

5

OSD 守护进程

paxos

0

5

监控用于建立共识的算法

rados

0

5

可靠的自主分布式对象存储,Ceph 的核心组件

rbd

0

5

Ceph 块设备

rgw

1

5

Ceph 对象网关

日志输出示例

下例演示了当您提高 monitor 和 OSD 的详细程度时,日志中的消息类型。

监控调试设置

debug_ms = 5
debug_mon = 20
debug_paxos = 20
debug_auth = 20

monitor 调试设置的日志输出示例

2016-02-12 12:37:04.278761 7f45a9afc700 10 mon.cephn2@0(leader).osd e322 e322: 2 osds: 2 up, 2 in
2016-02-12 12:37:04.278792 7f45a9afc700 10 mon.cephn2@0(leader).osd e322  min_last_epoch_clean 322
2016-02-12 12:37:04.278795 7f45a9afc700 10 mon.cephn2@0(leader).log v1010106 log
2016-02-12 12:37:04.278799 7f45a9afc700 10 mon.cephn2@0(leader).auth v2877 auth
2016-02-12 12:37:04.278811 7f45a9afc700 20 mon.cephn2@0(leader) e1 sync_trim_providers
2016-02-12 12:37:09.278914 7f45a9afc700 11 mon.cephn2@0(leader) e1 tick
2016-02-12 12:37:09.278949 7f45a9afc700 10 mon.cephn2@0(leader).pg v8126 v8126: 64 pgs: 64 active+clean; 60168 kB data, 172 MB used, 20285 MB / 20457 MB avail
2016-02-12 12:37:09.278975 7f45a9afc700 10 mon.cephn2@0(leader).paxosservice(pgmap 7511..8126) maybe_trim trim_to 7626 would only trim 115 < paxos_service_trim_min 250
2016-02-12 12:37:09.278982 7f45a9afc700 10 mon.cephn2@0(leader).osd e322 e322: 2 osds: 2 up, 2 in
2016-02-12 12:37:09.278989 7f45a9afc700  5 mon.cephn2@0(leader).paxos(paxos active c 1028850..1029466) is_readable = 1 - now=2016-02-12 12:37:09.278990 lease_expire=0.000000 has v0 lc 1029466
....
2016-02-12 12:59:18.769963 7f45a92fb700  1 -- 192.168.0.112:6789/0 <== osd.1 192.168.0.114:6800/2801 5724 ==== pg_stats(0 pgs tid 3045 v 0) v1 ==== 124+0+0 (2380105412 0 0) 0x5d96300 con 0x4d5bf40
2016-02-12 12:59:18.770053 7f45a92fb700  1 -- 192.168.0.112:6789/0 --> 192.168.0.114:6800/2801 -- pg_stats_ack(0 pgs tid 3045) v1 -- ?+0 0x550ae00 con 0x4d5bf40
2016-02-12 12:59:32.916397 7f45a9afc700  0 mon.cephn2@0(leader).data_health(1) update_stats avail 53% total 1951 MB, used 780 MB, avail 1053 MB
....
2016-02-12 13:01:05.256263 7f45a92fb700  1 -- 192.168.0.112:6789/0 --> 192.168.0.113:6800/2410 -- mon_subscribe_ack(300s) v1 -- ?+0 0x4f283c0 con 0x4d5b440

OSD 调试设置

debug_ms = 5
debug_osd = 20
debug_filestore = 20
debug_journal = 20

OSD 调试设置的日志输出示例

2016-02-12 11:27:53.869151 7f5d55d84700  1 -- 192.168.17.3:0/2410 --> 192.168.17.4:6801/2801 -- osd_ping(ping e322 stamp 2016-02-12 11:27:53.869147) v2 -- ?+0 0x63baa00 con 0x578dee0
2016-02-12 11:27:53.869214 7f5d55d84700  1 -- 192.168.17.3:0/2410 --> 192.168.0.114:6801/2801 -- osd_ping(ping e322 stamp 2016-02-12 11:27:53.869147) v2 -- ?+0 0x638f200 con 0x578e040
2016-02-12 11:27:53.870215 7f5d6359f700  1 -- 192.168.17.3:0/2410 <== osd.1 192.168.0.114:6801/2801 109210 ==== osd_ping(ping_reply e322 stamp 2016-02-12 11:27:53.869147) v2 ==== 47+0+0 (261193640 0 0) 0x63c1a00 con 0x578e040
2016-02-12 11:27:53.870698 7f5d6359f700  1 -- 192.168.17.3:0/2410 <== osd.1 192.168.17.4:6801/2801 109210 ==== osd_ping(ping_reply e322 stamp 2016-02-12 11:27:53.869147) v2 ==== 47+0+0 (261193640 0 0) 0x6313200 con 0x578dee0
....
2016-02-12 11:28:10.432313 7f5d6e71f700  5 osd.0 322 tick
2016-02-12 11:28:10.432375 7f5d6e71f700 20 osd.0 322 scrub_random_backoff lost coin flip, randomly backing off
2016-02-12 11:28:10.432381 7f5d6e71f700 10 osd.0 322 do_waiters -- start
2016-02-12 11:28:10.432383 7f5d6e71f700 10 osd.0 322 do_waiters -- finish

另请参阅

2.2. 在运行时配置日志记录

在运行时激活 Ceph 调试输出 dout()

ceph tell <type>.<id> injectargs --debug-<subsystem> <value> [--<name> <value>]

替换:

  • <type> 使用 Ceph 守护进程的类型(osdmonmds
  • <id> 使用特定的 Ceph 守护进程 ID。另外,使用 * 将运行时设置应用到特定类型的所有守护进程。
  • <subsystem> 使用特定的子系统.详情请查看 第 2.1 节 “Ceph 子系统”
  • <value> 使用从 120 的数字,其中 1 是 terse,20 详细

例如,将名为 osd.0 的 OSD 子系统的日志级别设置为 0,将内存级别设置为 5:

# ceph tell osd.0 injectargs --debug-osd 0/5

要在运行时查看配置设置:

  1. 使用正在运行的 Ceph 守护进程登录主机,例如 ceph-osdceph-mon
  2. 显示配置:

    ceph daemon <name> config show | less

    指定 Ceph 守护进程的名称,例如:

    # ceph daemon osd.0 config show | less

另请参阅

2.3. 在 Ceph 配置文件中配置日志记录

要激活 Ceph 调试输出,在启动时 dout() 将调试设置添加到 Ceph 配置文件。

  • 对于每个守护进程常见的子系统,请在 [global] 部分添加设置。
  • 对于特定守护进程的子系统,请在守护进程部分中添加设置,如 [mon][osd][mds]

例如:

[global]
        debug_ms = 1/5

[mon]
        debug_mon = 20
        debug_paxos = 1/5
        debug_auth = 2

[osd]
        debug_osd = 1/5
        debug_filestore = 1/5
        debug_journal = 1
        debug_monc = 5/20

[mds]
        debug_mds = 1

另请参阅

2.4. 加快日志轮转

提高 Ceph 组件的调试级别可能会产生大量数据。如果您几乎有完整的磁盘,可以通过修改 Ceph 日志轮转文件 /etc/logrotate.d/ceph 来加快日志轮转。Cron 作业调度程序使用此文件来调度日志轮转。

步骤: 加速日志轮转

  1. 在轮转频率后向日志轮转文件中添加大小设置:

    rotate 7
    weekly
    size <size>
    compress
    sharedscripts

    例如,在日志文件达到 500 MB 时轮转日志文件:

    rotate 7
    weekly
    size 500 MB
    compress
    sharedscripts
    size 500M
  2. 打开 crontab 编辑器:

    $ crontab -e
  3. 添加一个条目来检查 /etc/logrotate.d/ceph 文件。例如:要指示 Cron 每 30 分钟检查 /etc/logrotate.d/ceph:

    30 * * * * /usr/sbin/logrotate /etc/logrotate.d/ceph >/dev/null 2>&1

另请参阅

第 3 章 网络问题故障排除

本章列出了与网络和网络时间协议(NTP)连接的基本故障排除步骤。

3.1. 基本网络故障排除

红帽 Ceph 存储很大程度上依赖于可靠的网络连接。红帽 Ceph 存储节点使用网络相互通信。网络问题可能会导致 Ceph OSD 存在很多问题,如断路器,或者错误报告为 down。网络问题也可能导致 Ceph monitor 的时钟偏移错误。此外,数据包丢失、高延迟或有限带宽可能会影响集群性能和稳定性。

步骤: 基本网络故障排除

  1. 在对 Ceph 存储集群中可能发生的网络问题进行故障排除时,安装 net-tools 软件包可能会有所帮助:

    示例

    [root@mon ~]# yum install net-tools
    [root@mon ~]# yum install telnet

  2. 验证 Ceph 配置文件中的 cluster_networkpublic_network 参数是否包含正确的值:

    示例

    [root@mon ~]# cat /etc/ceph/ceph.conf | grep net
    cluster_network = 192.168.1.0/24
    public_network = 192.168.0.0/24

  3. 验证网络接口是否已启动:

    示例

    [root@mon ~]# ip link list
    1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN mode DEFAULT group default qlen 1000
        link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    2: enp22s0f0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc mq state UP mode DEFAULT group default qlen 1000
        link/ether 40:f2:e9:b8:a0:48 brd ff:ff:ff:ff:ff:ff

  4. 验证 Ceph 节点能够使用它们的短主机名互相访问。在存储集群的每个节点上验证它:

    语法

    ping SHORT_HOST_NAME

    示例

    [root@mon ~]# ping osd01

  5. 如果使用防火墙,请确保 Ceph 节点能够在其适当的端口上访问其他节点。firewall-cmdtelnet 工具可以验证端口状态,如果分别打开端口:

    语法

    firewall-cmd --info-zone=ZONE
    telnet IP_ADDRESS PORT

    示例

    [root@mon ~]# firewall-cmd --info-zone=public
    public (active)
      target: default
      icmp-block-inversion: no
      interfaces: enp1s0
      sources: 192.168.0.0/24
      services: ceph ceph-mon cockpit dhcpv6-client ssh
      ports: 9100/tcp 8443/tcp 9283/tcp 3000/tcp 9092/tcp 9093/tcp 9094/tcp 9094/udp
      protocols:
      masquerade: no
      forward-ports:
      source-ports:
      icmp-blocks:
      rich rules:
    
    [root@mon ~]# telnet 192.168.0.22 9100

  6. 验证接口计数器上没有错误。验证节点之间的网络连接具有预期的延迟,并且没有数据包丢失。

    1. 使用 ethtool 命令:

      语法

      ethtool -S INTERFACE

      示例

      [root@mon ~]# ethtool -S enp22s0f0 | grep errors
      NIC statistics:
           rx_fcs_errors: 0
           rx_align_errors: 0
           rx_frame_too_long_errors: 0
           rx_in_length_errors: 0
           rx_out_length_errors: 0
           tx_mac_errors: 0
           tx_carrier_sense_errors: 0
           tx_errors: 0
           rx_errors: 0

    2. 使用 ifconfig 命令:

      示例

      [root@mon ~]# ifconfig
      enp22s0f0: flags=4163<UP,BROADCAST,RUNNING,MULTICAST>  mtu 1500
      inet 10.8.222.13  netmask 255.255.254.0  broadcast 10.8.223.255
      inet6 2620:52:0:8de:42f2:e9ff:feb8:a048  prefixlen 64  scopeid 0x0<global>
      inet6 fe80::42f2:e9ff:feb8:a048  prefixlen 64  scopeid 0x20<link>
      ether 40:f2:e9:b8:a0:48  txqueuelen 1000  (Ethernet)
      RX packets 4219130  bytes 2704255777 (2.5 GiB)
      RX errors 0  dropped 0  overruns 0  frame 0 1
      TX packets 1418329  bytes 738664259 (704.4 MiB)
      TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0 2
      device interrupt 16

    3. 使用 netstat 命令:

      示例

      [root@mon ~]# netstat -ai
      Kernel Interface table
      Iface          MTU   RX-OK RX-ERR RX-DRP RX-OVR  TX-OK TX-ERR TX-DRP TX-OVR Flg
      docker0       1500       0      0      0 0           0      0      0      0 BMU
      eno2          1500       0      0      0 0           0      0      0      0 BMU
      eno3          1500       0      0      0 0           0      0      0      0 BMU
      eno4          1500       0      0      0 0           0      0      0      0 BMU
      enp0s20u13u5  1500  253277      0      0 0           0      0      0      0 BMRU
      enp22s0f0     9000  234160      0      0 0      432326      0      0      0 BMRU 1
      lo           65536   10366      0      0 0       10366      0      0      0 LRU

  7. 对于性能问题,除了延迟检查并验证存储集群所有节点之间的网络带宽外,使用 iperf3 工具。iperf3 工具在服务器和客户端之间进行简单的点对点网络带宽测试。

    1. 在您要检查带宽的 Red Hat Ceph Storage 节点上安装 iperf3 软件包:

      示例

      [root@mon ~]# yum install iperf3

    2. 在 Red Hat Ceph Storage 节点上启动 iperf3 服务器:

      示例

      [root@mon ~]# iperf3 -s
      -----------------------------------------------------------
      Server listening on 5201
      -----------------------------------------------------------

      注意

      默认端口为 5201,但可使用 -P 命令参数设置。

    3. 在不同的 Red Hat Ceph Storage 节点上启动 iperf3 客户端:

      示例

      [root@osd ~]# iperf3 -c mon
      Connecting to host mon, port 5201
      [  4] local xx.x.xxx.xx port 52270 connected to xx.x.xxx.xx port 5201
      [ ID] Interval           Transfer     Bandwidth       Retr  Cwnd
      [  4]   0.00-1.00   sec   114 MBytes   954 Mbits/sec    0    409 KBytes
      [  4]   1.00-2.00   sec   113 MBytes   945 Mbits/sec    0    409 KBytes
      [  4]   2.00-3.00   sec   112 MBytes   943 Mbits/sec    0    454 KBytes
      [  4]   3.00-4.00   sec   112 MBytes   941 Mbits/sec    0    471 KBytes
      [  4]   4.00-5.00   sec   112 MBytes   940 Mbits/sec    0    471 KBytes
      [  4]   5.00-6.00   sec   113 MBytes   945 Mbits/sec    0    471 KBytes
      [  4]   6.00-7.00   sec   112 MBytes   937 Mbits/sec    0    488 KBytes
      [  4]   7.00-8.00   sec   113 MBytes   947 Mbits/sec    0    520 KBytes
      [  4]   8.00-9.00   sec   112 MBytes   939 Mbits/sec    0    520 KBytes
      [  4]   9.00-10.00  sec   112 MBytes   939 Mbits/sec    0    520 KBytes
      - - - - - - - - - - - - - - - - - - - - - - - - -
      [ ID] Interval           Transfer     Bandwidth       Retr
      [  4]   0.00-10.00  sec  1.10 GBytes   943 Mbits/sec    0             sender
      [  4]   0.00-10.00  sec  1.10 GBytes   941 Mbits/sec                  receiver
      
      iperf Done.

      此输出显示红帽 Ceph 存储节点之间的网络带宽 1.1 Gbits/秒,在测试过程中不会重新传输(Retr)。

      红帽建议您验证存储集群中所有节点之间的网络带宽。

  8. 确保所有节点具有相同的网络互连速度。连接较慢的节点可能会减慢连接速度更快的节点。另外,确保间隔交换机链接可以处理附加节点的聚合带宽:

    语法

    ethtool INTERFACE

    示例

    [root@mon ~]# ethtool enp22s0f0
    Settings for enp22s0f0:
    Supported ports: [ TP ]
    Supported link modes:   10baseT/Half 10baseT/Full
                            100baseT/Half 100baseT/Full
                            1000baseT/Half 1000baseT/Full
    Supported pause frame use: No
    Supports auto-negotiation: Yes
    Supported FEC modes: Not reported
    Advertised link modes:  10baseT/Half 10baseT/Full
                            100baseT/Half 100baseT/Full
                            1000baseT/Half 1000baseT/Full
    Advertised pause frame use: Symmetric
    Advertised auto-negotiation: Yes
    Advertised FEC modes: Not reported
    Link partner advertised link modes:  10baseT/Half 10baseT/Full
                                         100baseT/Half 100baseT/Full
                                         1000baseT/Full
    Link partner advertised pause frame use: Symmetric
    Link partner advertised auto-negotiation: Yes
    Link partner advertised FEC modes: Not reported
    Speed: 1000Mb/s 1
    Duplex: Full 2
    Port: Twisted Pair
    PHYAD: 1
    Transceiver: internal
    Auto-negotiation: on
    MDI-X: off
    Supports Wake-on: g
    Wake-on: d
    Current message level: 0x000000ff (255)
           drv probe link timer ifdown ifup rx_err tx_err
    Link detected: yes 3

另请参阅

3.2. 基本 NTP 故障排除

本节介绍基本的 NTP 故障排除步骤。

步骤: 基本 NTP 故障排除

  1. 验证 ntpd 守护进程是否在 monitor 主机上运行:

    # systemctl status ntpd
  2. 如果 ntpd 没有运行,请启用并启动它:

    # systemctl enable ntpd
    # systemctl start ntpd
  3. 确保 ntpd 正确同步时钟:

    $ ntpq -p
  4. 有关高级 NTP 故障排除步骤,请参阅红帽客户门户网站中如何对 NTP 问题 解决方案进行故障排除。

另请参阅

第 4 章 监控器故障排除

本章包含关于如何修复与 Ceph 监控器相关的最常见错误的信息。

开始前

4.1. 与 monitor 相关的大多数通用错误信息

下表列出了 ceph health detail 命令返回或 Ceph 日志中最常包含的错误消息。这些表中提供了相应的部分的链接,这些部分解释了错误并指向修复问题的特定程序。

表 4.1. 与 monitor 相关的错误消息

错误消息请查看

HEALTH_WARN

mon.X is down (out of quorum)

第 4.1.1 节 “Quorum 以外的 monitor”

clock skew

第 4.1.2 节 “时钟偏移”

store is getting too big!

第 4.1.3 节 “monitor 存储正在获取 Too Big”

表 4.2. Ceph 日志中与 monitor 相关的常见错误消息

错误消息日志文件请查看

clock skew

主集群日志

第 4.1.2 节 “时钟偏移”

clocks not synchronized

主集群日志

第 4.1.2 节 “时钟偏移”

Corruption: error in middle of record

监控日志

第 4.1.1 节 “Quorum 以外的 monitor”

第 4.3 节 “恢复 monitor 存储”

Corruption: 1 missing files

监控日志

第 4.1.1 节 “Quorum 以外的 monitor”

第 4.3 节 “恢复 monitor 存储”

Caught signal (Bus error)

监控日志

第 4.1.1 节 “Quorum 以外的 monitor”

4.1.1. Quorum 以外的 monitor

一个或多个 monitor 标记为 down,但其他 monitor 仍然能够形成仲裁。另外,ceph health detail 命令返回类似如下的错误消息:

HEALTH_WARN 1 mons down, quorum 1,2 mon.b,mon.c
mon.a (rank 0) addr 127.0.0.1:6789/0 is down (out of quorum)
此 Means 是什么

Ceph 由于各种原因将 monitor 标记为 down

如果 ceph-mon 守护进程没有运行,它可能会有损坏的存储或者其它错误阻止守护进程启动。另外,/var/ 分区可能已满。因此,ceph-mon 无法对默认位于 /var/lib/ceph/mon-<short-host-name>/store.db 的存储执行任何操作,并终止。

如果 ceph-mon 守护进程正在运行,但 monitor 没有仲裁并标记为 down,问题的原因取决于 monitor 状态:

  • 如果 monitor 处于 探测 状态超过预期,则无法找到其他 monitor。这个问题可能是由网络问题造成的,或者 monitor 可能会有一个过时的 monitor map(monmap),并尝试访问错误的 IP 地址上的其他 monitor。另外,如果 monmap 是最新的,则 monitor 的时钟可能无法同步。
  • 如果 monitor 处于 选择 状态超过预期,则 monitor 的时钟可能无法同步。
  • 如果 monitor 将自己的状态从 同步 变为开 机和 返回,集群状态将会发展。这意味着,它生成的新 map 的速度要快于同步进程可以处理的速度。
  • 如果 monitor 将自身标记为 领导或 工作 ,则它认为自己处于仲裁状态,而剩余的集群则确定它不会处于仲裁状态。此问题可能是时钟同步失败造成的。
要排除这个问题,请执行以下操作
  1. 验证 ceph-mon 守护进程是否正在运行。如果没有,请启动它:

    systemctl status ceph-mon@<host-name>
    systemctl start ceph-mon@<host-name>

    使用运行守护进程的主机的短名称替换 <host-name>。不确定时使用 hostname -s 命令。

  2. 如果您无法启动 ceph-mon,请按照 ceph-mon 守护进程中的步骤启动
  3. 如果您能够启动 ceph-mon 守护进程,但标记为 down,请按照 ceph-mon 守护进程运行中的步骤进行操作,但 Still Marked 为 down
ceph-mon 守护进程无法启动
  1. 检查对应的 monitor 日志,默认位于 /var/log/ceph/ceph-mon.<host-name>.log
  2. 如果日志包含类似于下列错误消息的错误消息,monitor 可能具有损坏的存储:

    Corruption: error in middle of record
    Corruption: 1 missing files; e.g.: /var/lib/ceph/mon/mon.0/store.db/1234567.ldb

    要解决这个问题,请替换 monitor。请参阅 第 4.4 节 “替换失败的 monitor”

  3. 如果日志包含类似如下的错误消息,/var/ 分区可能已满。从 /var/ 删除任何不必要的数据。

    Caught signal (Bus error)
    重要

    不要手动从 monitor 目录中删除任何数据。反之,使用 ceph-monstore-tool 紧凑它。详情请查看 第 4.5 节 “压缩 monitor 存储”

  4. 如果您看到任何其他错误消息,请打开支持票据。详情请查看 第 9 章 联系红帽支持服务
ceph-mon Daemon 运行,但 Still Marked 作为 down
  1. 在没有仲裁的 monitor 主机中,使用 mon_status 命令检查其状态:

    ceph daemon <id> mon_status

    使用 monitor ID 替换 <id>,例如:

    # ceph daemon mon.a mon_status
  2. 如果状态为 探测,请验证 mon_status 输出中其他 monitor 的位置。

    1. 如果地址不正确,monitor 带有不正确的 monitor 映射(monmap)。要解决这个问题,请参阅 第 4.2 节 “注入 monitor map”
    2. 如果地址正确,请验证 monitor 时钟是否已同步。详情请查看 第 4.1.2 节 “时钟偏移”。另外,对任何网络问题进行故障排除,请参阅 第 3 章 网络问题故障排除
  3. 如果状态为选中状态 请验证 monitor 时钟是否同步。请参阅 第 4.1.2 节 “时钟偏移”
  4. 如果状态从 选择 同步变为 同步,请打开支持票据。详情请查看 第 9 章 联系红帽支持服务
  5. 如果 monitor 是 领导 机或工作 机, 请验证 monitor 时钟是否已同步。请参阅 第 4.1.2 节 “时钟偏移”。如果同步时钟无法解决问题,请打开支持问题单。详情请查看 第 9 章 联系红帽支持服务
另请参阅

4.1.2. 时钟偏移

Ceph 监控器没有仲裁,ceph health detail 命令输出包含类似如下的错误消息:

mon.a (rank 0) addr 127.0.0.1:6789/0 is down (out of quorum)
mon.a addr 127.0.0.1:6789/0 clock skew 0.08235s > max 0.05s (latency 0.0045s)

此外,Ceph 日志包含类似如下的错误消息:

2015-06-04 07:28:32.035795 7f806062e700 0 log [WRN] : mon.a 127.0.0.1:6789/0 clock skew 0.14s > max 0.05s
2015-06-04 04:31:25.773235 7f4997663700 0 log [WRN] : message from mon.1 was stamped 0.186257s in the future, clocks not synchronized
此 Means 是什么

clock skew 错误消息表示 monitor 的时钟没有同步。时钟同步很重要,因为 monitor 依赖于时间精度,如果时钟不同步,则行为不可预测。

mon_clock_drift_allowed 参数决定时钟之间的差别是容许的。默认情况下,此参数设置为 0.05 秒。

重要

在未进行之前测试的情况下,不要更改 mon_clock_drift_allowed 的默认值。更改此值可能会影响 monitor 和 Ceph 存储群集的稳定性。

clock skew 错误的原因可能包括网络问题或者网络时间协议(NTP)同步问题(如果已配置)。此外,时间同步无法在虚拟机上部署的 monitor 上正常工作。

要排除这个问题,请执行以下操作
  1. 验证您的网络是否正常工作。详情请查看 第 3 章 网络问题故障排除。特别是,如果您使用 NTP,则对 NTP 客户端的任何问题进行故障排除。如需更多信息,请参阅 第 3.2 节 “基本 NTP 故障排除”
  2. 如果您使用远程 NTP 服务器,请考虑在网络上部署您自己的 NTP 服务器。详情请查看 Red Hat Enterprise Linux 7 的《系统管理员指南》 中的使用 ntpd 配置 NTP 一章。
  3. 如果您不使用 NTP 客户端,请设置一个。详情请参阅 Red Hat Enterprise Linux 或 Ubuntu 的红帽 Ceph 存储 3 安装指南中的为 红帽 Ceph 存储配置网络时间协议 一节。
  4. 如果您使用虚拟机托管 monitor,请将其移至裸机主机。不支持使用虚拟机托管 monitor。详情请查看红帽客户门户网站中的 Red Hat Ceph Storage: 支持的配置 文章。
注意

Ceph 仅评估每五分钟的时间同步,因此修复问题与清除 clock skew 信息之间会有一个延迟。

另请参阅

4.1.3. monitor 存储正在获取 Too Big

ceph health 命令返回类似如下的错误消息:

mon.ceph1 store is getting too big! 48031 MB >= 15360 MB -- 62% avail
此 Means 是什么

Ceph 监控存储实际上是一个 LevelDB 数据库,将条目存储为键值对。数据库包含一个集群映射,默认位于 /var/lib/ceph/mon/<cluster-name>-<short-host-name>/store.db

查询大型 monitor 存储可能需要时间。因此,在响应客户端查询时可能会延迟 monitor。

另外,如果 /var/ 分区已满,monitor 无法对存储执行任何写入操作并终止。有关此问题故障排除的详情,请查看 第 4.1.1 节 “Quorum 以外的 monitor”

要排除这个问题,请执行以下操作
  1. 检查数据库的大小:

    du -sch /var/lib/ceph/mon/<cluster-name>-<short-host-name>/store.db

    指定集群的名称以及 ceph-mon 正在运行的主机的短主机名,例如:

    # du -sch /var/lib/ceph/mon/ceph-host1/store.db
    47G     /var/lib/ceph/mon/ceph-ceph1/store.db/
    47G     total
  2. 紧凑 monitor 存储.详情请查看 第 4.5 节 “压缩 monitor 存储”
另请参阅

4.1.4. 了解 monitor 状态

mon_status 命令返回有关 monitor 的信息,例如:

  • 状态
  • 等级
  • 选举时期
  • monitor map(monmap)

如果 monitor 能够形成仲裁,请在 ceph 命令行工具中使用 mon_status

如果 monitor 无法形成仲裁,但 ceph-mon 守护进程正在运行,请使用管理套接字来执行 mon_status。详情请参阅《红帽 Ceph 存储 3 管理指南 》中的"使用管理套接字 "一节。

输出示例 mon_status

{
    "name": "mon.3",
    "rank": 2,
    "state": "peon",
    "election_epoch": 96,
    "quorum": [
        1,
        2
    ],
    "outside_quorum": [],
    "extra_probe_peers": [],
    "sync_provider": [],
    "monmap": {
        "epoch": 1,
        "fsid": "d5552d32-9d1d-436c-8db1-ab5fc2c63cd0",
        "modified": "0.000000",
        "created": "0.000000",
        "mons": [
            {
                "rank": 0,
                "name": "mon.1",
                "addr": "172.25.1.10:6789\/0"
            },
            {
                "rank": 1,
                "name": "mon.2",
                "addr": "172.25.1.12:6789\/0"
            },
            {
                "rank": 2,
                "name": "mon.3",
                "addr": "172.25.1.13:6789\/0"
            }
        ]
    }
}

monitor 状态
leader
在选择阶段,monitor 会选举领导。领导机是等级最高的 monitor,即最低值的排名。在上例中,领导机是 mon.1
Ppeon
Cpeons 是仲裁中的 monitor,而不是领导。如果领导失败,则排名最高的学员将成为新的领导。
Probing
如果 monitor 正在寻找其他 monitor,则 monitor 处于探测状态。例如,在启动 monitor 后,它们会被 探测到 在 monitor map(monmap)中指定的足够 monitor 组成仲裁为止。
选择
如果 monitor 处于选择领导状态,则它处于选举状态。通常,此状态会快速变化。
同步
如果正在与其他 monitor 同步以加入仲裁,则 monitor 处于同步状态。监控器存储容量越小,同步过程越快。因此,如果您有大量的存储,同步需要更长的时间。

4.2. 注入 monitor map

如果 monitor 有一个过时的或损坏的 monitor map(monmap),它就无法加入仲裁,因为它试图访问不正确的 IP 地址上的其他 monitor。

解决这个问题的最安全方法是从其他 monitor 获取并注入实际的 monitor map。请注意,此操作将覆盖 monitor 保存的现有 monitor map。

此流程演示了如何在其他 monitor 组成仲裁或至少有一个 monitor 具有正确的 monitor map 时注入 monitor map。如果所有 monitor 都有损坏的存储,因此也包含 monitor 映射,请参阅 第 4.3 节 “恢复 monitor 存储”

步骤:注入 monitor map

  1. 如果剩余的 monitor 可以形成仲裁,请使用 ceph mon getmap 命令获取 monitor map:

    # ceph mon getmap -o /tmp/monmap
  2. 如果剩余的 monitor 无法形成仲裁,并且至少有一个带有正确的 monitor 映射的 monitor,请从该 monitor 中复制它:

    1. 停止您要复制 monitor map 的 monitor:

      systemctl stop ceph-mon@<host-name>

      例如,停止在带有 host1 短主机名的主机上运行的 monitor:

      # systemctl stop ceph-mon@host1
    2. 复制 monitor map:

      ceph-mon -i <id> --extract-monmap /tmp/monmap

      使用您要从中复制 monitor 映射的 monitor ID 替换 <id>,例如:

      # ceph-mon -i mon.a  --extract-monmap /tmp/monmap
  3. 使用损坏或过时的 monitor map 停止 monitor:

    systemctl stop ceph-mon@<host-name>

    例如,停止在带有 host2 短主机名的主机上运行的 monitor:

    # systemctl stop ceph-mon@host2
  4. 注入 monitor map:

    ceph-mon -i <id> --inject-monmap /tmp/monmap

    使用损坏的或过时的 monitor map 将 <id> 替换为 monitor 的 ID,例如:

    # ceph-mon -i mon.c --inject-monmap /tmp/monmap
  5. 启动 monitor,例如:

    # systemctl start ceph-mon@host2

    如果您从另一个 monitor 复制了 monitor map,请也启动该 monitor,例如:

    # systemctl start ceph-mon@host1

另请参阅

4.3. 恢复 monitor 存储

Ceph 监控器将 cluster map 存储在 LevelDB 等键值存储中。如果存储在 monitor 上损坏,monitor 会意外终止,无法再次启动。Ceph 日志可能包括以下错误:

Corruption: error in middle of record
Corruption: 1 missing files; e.g.: /var/lib/ceph/mon/mon.0/store.db/1234567.ldb

生产集群必须使用至少三个 monitor,以便在出现故障时可以替换为另一个 monitor。然而,在某些情况下,所有 monitor 都可损坏存储。例如,当 monitor 节点配置错误的磁盘或文件系统设置时,断电可能会破坏底层文件系统。

如果存储在所有 monitor 中损坏,您可以使用 OSD 节点上存储的信息恢复它,方法是使用名为 ceph-monstore-toolceph-objectstore-tool 的工具。

重要

此流程无法恢复以下信息:

  • 元数据守护进程服务器(MDS)密钥环和映射
  • 放置组设置:

    • full ratio 使用 ceph pg set_full_ratio 命令设置
    • nearfull ratio 使用 ceph pg set_nearfull_ratio 命令设置
重要

切勿从旧备份恢复 monitor 存储。使用以下步骤从当前集群状态重建 monitor 存储,并从中恢复。

开始前

  • 确定您安装了 rsync 实用程序和 ceph-test 软件包。

步骤:恢复 monitor 存储

从带有损坏存储的 monitor 节点使用以下命令:

  1. 从所有 OSD 节点收集 cluster map:

    ms=<directory>
    mkdir $ms
    
    for host in $host_list; do
      rsync -avz "$ms" root@$host:"$ms"; rm -rf "$ms"
      ssh root@$host <<EOF
      for osd in  /var/lib/ceph/osd/ceph-*; do
        ceph-objectstore-tool --data-path \$osd --op update-mon-db --mon-store-path $ms
      done
    EOF
    rsync -avz root@$host:$ms $ms; done

    使用临时目录替换 <directory> 来存储收集的集群映射,例如:

    $ ms=/tmp/monstore/
    $ mkdir $ms
    $ for host in $host_list; do
      rsync -avz "$ms" root@$host:"$ms"; rm -rf "$ms"
      ssh root@$host <<EOF
      for osd in  /var/lib/ceph/osd/ceph-*; do
        ceph-objectstore-tool --data-path \$osd --op update-mon-db --mon-store-path $ms
      done
    EOF
    rsync -avz root@$host:$ms $ms; done
  2. 设置适当的功能:

    ceph-authtool <keyring>  -n mon. --cap mon 'allow *'
    ceph-authtool <keyring>  -n client.admin --cap mon 'allow *' --cap osd 'allow *' --cap mds 'allow *'

    使用客户端管理密钥环的路径替换 <keyring>,例如:

    $ ceph-authtool /etc/ceph/ceph.client.admin.keyring  -n mon. --cap mon 'allow *'
    $ ceph-authtool /etc/ceph/ceph.client.admin.keyring  -n client.admin --cap mon 'allow *' --cap osd 'allow *' --cap mds 'allow *'
  3. 从收集的 map 重建 monitor 存储:

    ceph-monstore-tool <directory> rebuild -- --keyring <keyring>

    使用第一步中的临时目录替换 <directory>,使用到客户端管理密钥环的路径替换 <keyring>,例如:

    $ ceph-monstore-tool /tmp/mon-store rebuild -- --keyring /etc/ceph/ceph.client.admin.keyring
    注意

    如果您不使用 cephfx 身份验证,省略 --keyring 选项:

    $ ceph-monstore-tool /tmp/mon-store rebuild
  4. 备份损坏的存储:

    mv /var/lib/ceph/mon/<mon-ID>/store.db \
       /var/lib/ceph/mon/<mon-ID>/store.db.corrupted

    使用 monitor ID 替换 <mon-ID>,例如 <mon.0>

    # mv /var/lib/ceph/mon/mon.0/store.db \
         /var/lib/ceph/mon/mon.0/store.db.corrupted
  5. 替换损坏的存储:

    mv /tmp/mon-store/store.db /var/lib/ceph/mon/<mon-ID>/store.db

    使用 monitor ID 替换 <mon-ID>,例如 <mon.0>

    # mv /tmp/mon-store/store.db /var/lib/ceph/mon/mon.0/store.db

    对所有存储损坏的 monitor 重复此步骤。

  6. 更改新存储的所有者:

    chown -R ceph:ceph /var/lib/ceph/mon/<mon-ID>/store.db

    使用 monitor ID 替换 <mon-ID>,例如 <mon.0>

    # chown -R ceph:ceph /var/lib/ceph/mon/mon.0/store.db

    对所有存储损坏的 monitor 重复此步骤。

另请参阅

4.4. 替换失败的 monitor

当 monitor 具有损坏的存储时,建议通过利用 Ansible 自动化应用来替换 monitor。

开始前

  • 在删除 monitor 之前,请确保其他 monitor 正在运行并且能够形成仲裁。

步骤: 替换失败的 monitor

  1. 在 monitor 主机上,默认删除位于 /var/lib/ceph/mon/<cluster-name>-<short-host-name> 的 monitor 存储:

    rm -rf /var/lib/ceph/mon/<cluster-name>-<short-host-name>

    指定 monitor 主机的简短主机名和集群名称。例如,要从名为 remote 的集群中删除 host1 上运行的 monitor 存储:

    # rm -rf /var/lib/ceph/mon/remote-host1
  2. 从 monitor map(monmap)中删除 monitor:

    ceph mon remove <short-host-name> --cluster <cluster-name>

    指定 monitor 主机的简短主机名和集群名称。例如,要从名为 remote 的集群中删除 host1 上运行的 monitor:

    # ceph mon remove host1 --cluster remote
  3. 排除故障并修复与 monitor 主机底层文件系统或硬件相关的问题。
  4. 在 Ansible 管理节点中,通过运行 ceph-ansible playbook 来重新部署 monitor:

    $ /usr/share/ceph-ansible/ansible-playbook site.yml

另请参阅

4.5. 压缩 monitor 存储

当 monitor 存储的大小增大时,您可以对其进行压缩:

重要

当集群不处于 active+clean 状态或重新平衡过程中,监控器存储大小更改。因此,在完成重新平衡时,压缩 monitor 存储。另外,确保 PG 处于 active+clean 状态。

步骤:动态压缩 monitor 存储

要在 ceph-mon 守护进程运行时压缩 monitor 存储:

ceph tell mon.<host-name> compact

使用运行 ceph-mon 的主机的短主机名替换 <host-name>。不确定时使用 hostname -s 命令。

# ceph tell mon.host1 compact

步骤:在启动时压缩 monitor 存储

  1. 将以下参数添加到 Ceph 配置的 [mon] 部分下:

    [mon]
    mon_compact_on_start = true
  2. 重启 ceph-mon 守护进程:

    systemctl restart ceph-mon@<host-name>

    使用运行守护进程的主机的短名称替换 <host-name>。不确定时使用 hostname -s 命令。

    # systemctl restart ceph-mon@host1
  3. 确保 monitor 创建了仲裁:

    # ceph mon stat
  4. 如果需要,在其他 monitor 上重复这些步骤。

步骤:使用压缩 monitor 存储 ceph-monstore-tool

注意

在开始前,请确保已安装了 ceph-test 软件包。

  1. 验证带有大存储的 ceph-mon 守护进程没有运行。如果需要,请停止 后台程序。

    systemctl status ceph-mon@<host-name>
    systemctl stop ceph-mon@<host-name>

    使用运行守护进程的主机的短名称替换 <host-name>。不确定时使用 hostname -s 命令。

    # systemctl status ceph-mon@host1
    # systemctl stop ceph-mon@host1
  2. 紧凑 monitor 存储:

    ceph-monstore-tool /var/lib/ceph/mon/mon.<host-name> compact

    使用 monitor 主机的短主机名替换 <host-name>

    # ceph-monstore-tool /var/lib/ceph/mon/mon.node1 compact
  3. 再次启动 ceph-mon

    systemctl start ceph-mon@<host-name>

    例如:

    # systemctl start ceph-mon@host1

另请参阅

4.6. 为 Ceph Manager 打开端口

ceph-mgr 守护进程从与 ceph-osd 守护进程相同的端口范围的 OSD 接收 PG 信息。如果没有打开这些端口,集群将从 HEALTH_OK 转移到 HEALTH_WARN,并且指示 PG 为 unknown,其百分比数为 unknown。

要解决这种情况,在每个运行 ceph-mgr 守护进程的主机中,打开端口 6800:7300。例如:

[root@ceph-mgr] # firewall-cmd --add-port 6800:7300/tcp
[root@ceph-mgr] # firewall-cmd --add-port 6800:7300/tcp --permanent

然后,重启 ceph-mgr 守护进程。

第 5 章 OSD 故障排除

本章包含关于如何修复与 Ceph OSD 相关的最常见错误的信息。

开始前

5.1. 与 OSD 相关的大多数通用错误消息

下表列出了 ceph health detail 命令返回或 Ceph 日志中最常包含的错误消息。这些表中提供了相应的部分的链接,这些部分解释了错误并指向修复问题的特定程序。

表 5.2. 与 OSD 相关的 Ceph 日志中的常见错误消息

错误消息日志文件请查看

heartbeat_check: no reply from osd.X

主集群日志

第 5.1.4 节 “Flapping OSD”

wrongly marked me down

主集群日志

第 5.1.4 节 “Flapping OSD”

osds have slow requests

主集群日志

第 5.1.5 节 “请求速度较慢,请求被阻塞”

FAILED assert(!m_filestore_fail_eio)

OSD 日志

第 5.1.3 节 “个或更多 OSD 发生故障”

FAILED assert(0 == "hit suicide timeout")

OSD 日志

第 5.1.3 节 “个或更多 OSD 发生故障”

5.1.1. 完整 OSD

ceph health detail 命令返回类似如下的错误消息:

HEALTH_ERR 1 full osds
osd.3 is full at 95%
此 Means 是什么

Ceph 可以防止客户端在完整的 OSD 节点上执行 I/O 操作,以避免数据丢失。当集群达到由 mon_osd_full_ratio 参数设置的容量时,它会返回 HEALTH_ERR full osds 消息。默认情况下,这个参数被设置为 0.95,即集群容量的 95%。

要排除这个问题,请执行以下操作

确定使用了原始存储(%RAW USED)的百分比:

# ceph df

如果 %RAW USED 超过 70-75%,您可以:

另请参阅

5.1.2. nearfull OSD

ceph health detail 命令返回类似如下的错误消息:

HEALTH_WARN 1 nearfull osds
osd.2 is near full at 85%
此 Means 是什么

当集群达到 mon osd nearfull ratio defaults 参数设定的容量时,Ceph 会返回 nearfull osds 消息。默认情况下,这个参数被设置为 0.85,即集群容量的 85%。

Ceph 以尽可能最佳的方式分发基于 CRUSH 层次结构的数据,但它不能保证均匀分布。数据分布不畅和 nearfull osds 信息的主要原因是:

  • OSD 在集群中的 OSD 节点之间没有平衡。也就是说,一些 OSD 节点托管的 OSD 比其他 OSD 高得多,或者 CRUSH map 中部分 OSD 的权重不足以满足其容量要求。
  • PG 计数与 OSD 数量、用例、每个 OSD 目标 PG 和 OSD 利用率不同。
  • 集群使用不当的 CRUSH 可调项。
  • OSD 的后端存储几乎已满。
排除此问题,请执行以下操作:
  1. 验证 PG 计数是否足够,并在需要时增加。详情请查看 第 7.5 节 “增加 PG 数量”
  2. 验证您是否使用最优于集群版本的 CRUSH 可调项,如果不是,请进行调整。详情请查看红帽 Ceph 存储 3 存储 3 存储策略 指南中的 CRUSH 可调项小节 ,以及如何测试对红帽客户门户上红帽 Ceph 存储中 OSD 的 PG 分布的影响 CRUSH map 可调项。
  3. 根据利用率更改 OSD 的权重。请参阅红帽 Ceph 存储 3 的存储策略指南中的设置 OSD Weight by Utilization 部分。
  4. 确定 OSD 使用的磁盘上保留多少空间。

    1. 查看 OSD 一般使用的空间量:

      # ceph osd df
    2. 查看 OSD 在特定节点上使用的空间:从包含 nearful OSD 的节点运行以下命令:

      $ df
    3. 如果需要,添加新 OSD 节点。请参阅《红帽 Ceph 存储 3 管理指南 》中的 添加和删除 OSD 节点 章节。
另请参阅

5.1.3. 个或更多 OSD 发生故障

ceph health 命令返回类似如下的错误:

HEALTH_WARN 1/3 in osds are down
此 Means 是什么

其中一个 ceph-osd 进程因为可能的服务故障或与其他 OSD 通信时出现问题而不可用。因此,存活的 ceph-osd 守护进程会向 monitor 报告这个失败。

如果 ceph-osd 守护进程没有运行,底层 OSD 驱动器或文件系统会损坏,或者某些其他错误(如缺少密钥环)会阻止守护进程启动。

在大多数情况下,网络问题会导致 ceph-osd 守护进程正在运行,但仍标记为 down

要排除这个问题,请执行以下操作
  1. 确定哪个 OSD 为 down:

    # ceph health detail
    HEALTH_WARN 1/3 in osds are down
    osd.0 is down since epoch 23, last address 192.168.106.220:6800/11080
  2. 尝试重启 ceph-osd 守护进程:

    systemctl restart ceph-osd@<OSD-number>

    使用 down 的 OSD 的 ID 替换 <OSD-number>,例如:

    # systemctl restart ceph-osd@0
    1. 如果您无法启动 ceph-osd,请按照 ceph-osd 守护进程中的步骤启动
    2. 如果您能够启动 ceph-osd 守护进程,但标记为 down,请按照 ceph-osd 守护进程正在运行但仍标记为 down 的步骤操作。
ceph-osd 守护进程无法启动
  1. 如果您有一个包含多个 OSD 的节点(通常比 12 多个 OSD),请验证默认最多线程数(PID 数)是否足够。详情请查看 第 5.5 节 “增加 PID 数量”
  2. 验证 OSD 数据和日志分区是否已正确挂载:

    # ceph-disk list
    ...
    /dev/vdb :
     /dev/vdb1 ceph data, prepared
     /dev/vdb2 ceph journal
    /dev/vdc :
     /dev/vdc1 ceph data, active, cluster ceph, osd.1, journal /dev/vdc2
     /dev/vdc2 ceph journal, for /dev/vdc1
    /dev/sdd1 :
     /dev/sdd1 ceph data, unprepared
     /dev/sdd2 ceph journal

    如果 ceph-disk 将分区标记为 active,则会挂载分区。如果分区是 prepared,挂载它。详情请查看 第 5.3 节 “挂载 OSD 数据分区”。如果分区是 unprepared,则必须在挂载前首先准备它。请参阅《红帽 Ceph 存储 3 管理指南 》中的准备 OSD 数据和日志驱动器一节

  3. 如果您收到 ERROR: missing keyring, cannot use cephx for authentication 错误消息,则 OSD 缺少密钥环。请参阅《红帽 Ceph 存储 3 管理指南》 中的 密钥环管理部分
  4. 如果您收到 ERROR: unable to open OSD superblock on /var/lib/ceph/osd/ceph-1 错误消息,ceph-osd 守护进程将无法读取底层文件系统。有关如何排除故障并修复此错误的说明,请参阅以下步骤。

    注意

    如果在 OSD 主机引导期间返回此错误消息,请打开支持票据,因为这可能表示 在红帽 Bugzilla 1439210 中跟踪了一个已知问题。详情请查看 第 9 章 联系红帽支持服务

  5. 检查对应的日志文件,以确定故障的原因。默认情况下,Ceph 将日志文件存储在 /var/log/ceph/ 目录中。

    1. 类似于以下内容的 EIO 错误消息表示底层磁盘失败:

      FAILED assert(!m_filestore_fail_eio || r != -5)

      为修复此问题,请替换底层 OSD 磁盘。详情请查看 第 5.4 节 “替换 OSD 驱动器”

    2. 如果日志包含任何其他 FAILED assert 错误,如以下错误,请打开支持票据。详情请查看 第 9 章 联系红帽支持服务

      FAILED assert(0 == "hit suicide timeout")
  6. 检查 dmesg 输出是否有底层文件系统或磁盘的错误:

    $ dmesg
    1. error -5 错误消息类似如下,表示底层 XFS 文件系统崩溃。有关如何解决这个问题的详情,请查看红帽客户门户网站中的 "xfs_log_force: error -5 返回"? 解决方案的含义

      xfs_log_force: error -5 returned
    2. 如果 dmesg 输出包含任何 SCSI error 错误消息,请参阅红帽客户门户网站中的 SCSI Error Codes Solution Finder 解决方案,以确定解决问题的最佳方法。
    3. 或者,如果您无法修复底层文件系统,请替换 OSD 驱动器。详情请查看 第 5.4 节 “替换 OSD 驱动器”
  7. 如果 OSD 因分段错误而出现故障,如以下 OSD,请收集必要的信息并打开支持票据。详情请查看 第 9 章 联系红帽支持服务

    Caught signal (Segmentation fault)
ceph-osd 正在运行,但仍标记为 down
  1. 检查对应的日志文件,以确定故障的原因。默认情况下,Ceph 将日志文件存储在 /var/log/ceph/ 目录中。

    1. 如果日志包含类似以下的错误消息,请参阅 第 5.1.4 节 “Flapping OSD”

      wrongly marked me down
      heartbeat_check: no reply from osd.2 since back
    2. 如果您看到任何其他错误,请打开支持票据。详情请查看 第 9 章 联系红帽支持服务
另请参阅

5.1.4. Flapping OSD

ceph -w | grep osds 命令会在短时间内重复显示 OSD 为 down,然后再次显示 up

# ceph -w | grep osds
2017-04-05 06:27:20.810535 mon.0 [INF] osdmap e609: 9 osds: 8 up, 9 in
2017-04-05 06:27:24.120611 mon.0 [INF] osdmap e611: 9 osds: 7 up, 9 in
2017-04-05 06:27:25.975622 mon.0 [INF] HEALTH_WARN; 118 pgs stale; 2/9 in osds are down
2017-04-05 06:27:27.489790 mon.0 [INF] osdmap e614: 9 osds: 6 up, 9 in
2017-04-05 06:27:36.540000 mon.0 [INF] osdmap e616: 9 osds: 7 up, 9 in
2017-04-05 06:27:39.681913 mon.0 [INF] osdmap e618: 9 osds: 8 up, 9 in
2017-04-05 06:27:43.269401 mon.0 [INF] osdmap e620: 9 osds: 9 up, 9 in
2017-04-05 06:27:54.884426 mon.0 [INF] osdmap e622: 9 osds: 8 up, 9 in
2017-04-05 06:27:57.398706 mon.0 [INF] osdmap e624: 9 osds: 7 up, 9 in
2017-04-05 06:27:59.669841 mon.0 [INF] osdmap e625: 9 osds: 6 up, 9 in
2017-04-05 06:28:07.043677 mon.0 [INF] osdmap e628: 9 osds: 7 up, 9 in
2017-04-05 06:28:10.512331 mon.0 [INF] osdmap e630: 9 osds: 8 up, 9 in
2017-04-05 06:28:12.670923 mon.0 [INF] osdmap e631: 9 osds: 9 up, 9 in

此外,Ceph 日志包含类似于以下的错误消息:

2016-07-25 03:44:06.510583 osd.50 127.0.0.1:6801/149046 18992 : cluster [WRN] map e600547 wrongly marked me down
2016-07-25 19:00:08.906864 7fa2a0033700 -1 osd.254 609110 heartbeat_check: no reply from osd.2 since back 2016-07-25 19:00:07.444113 front 2016-07-25 18:59:48.311935 (cutoff 2016-07-25 18:59:48.906862)
此 Means 是什么

引发 OSD 的主要原因是:

  • 某些集群操作(如清理或恢复)通常需要花费大量时间。例如,如果您对具有大型索引或大型放置组的对象执行这些操作。通常,在完成这些操作后,flapping OSD 问题会得到解决。
  • 与底层物理硬件相关的问题.在这种情况下,ceph health detail 命令也会返回 slow requests 错误消息。详情请查看 第 5.1.5 节 “请求速度较慢,请求被阻塞”
  • 网络相关问题.

当集群(后端)网络出现故障或开发显著延迟时,OSD 无法很好地处理这种情形,而公共(前端)网络运行最佳。

OSD 使用集群网络来互相发送 heartbeat 数据包,以注明它们是 upin。如果集群网络无法正常工作,OSD 无法发送和接收 heartbeat 数据包。因此,它们相互报告为 down 到 monitor,同时将自身标记为 up

Ceph 配置文件中的以下参数会影响此行为:

参数描述默认值

osd_heartbeat_grace

OSD 在将 OSD 报告为 down 向 monitor 报告之前等待心跳数据包返回的时长。

20 秒

mon_osd_min_down_reporters

监控将 OSD 标记为 down 前有多少 OSD 必须报告另一个 OSD 为 down

2

此表显示,在默认配置中,如果只有一个 OSD 制作了三个不同报告,Ceph 监控器会将 OSD 标记为 downdown在某些情况下,如果单个主机遇到网络问题,整个群集可能会遇到 OSD 出现问题。这是因为主机上的 OSD 将报告群集中的其他 OSD 为 down

注意

Flanping OSD 方案不包括 OSD 进程启动时,然后立即终止的情况。

要排除这个问题,请执行以下操作
  1. 再次检查 ceph health detail 命令的输出。如果包含 slow requests 错误消息,请参阅 第 5.1.5 节 “请求速度较慢,请求被阻塞” 了解如何排除此问题的详情。

    # ceph health detail
    HEALTH_WARN 30 requests are blocked > 32 sec; 3 osds have slow requests
    30 ops are blocked > 268435 sec
    1 ops are blocked > 268435 sec on osd.11
    1 ops are blocked > 268435 sec on osd.18
    28 ops are blocked > 268435 sec on osd.39
    3 osds have slow requests
  2. 确定哪些 OSD 标记为 down 以及它们所在的节点上:

    # ceph osd tree | grep down
  3. 在包含 flapping OSD 的节点上,对任何网络问题进行故障排除并修复。详情请查看 第 3 章 网络问题故障排除
  4. 或者,您可以通过设置 noupnodown 标志来临时强制监控器停止将 OSD 标记为 downup

    # ceph osd set noup
    # ceph osd set nodown
    重要

    使用 noupnodown 标志不会修复造成问题的根本原因,而是只防止 OSD 崩溃。如果无法自行修复并对错误进行故障排除,请打开支持票据。详情请查看 第 9 章 联系红帽支持服务

  5. 此外,可以通过在 Ceph 配置文件中设置 osd heartbeat min size = 100,然后重新启动 OSD,来修复 flapping OSD。这会导致因为 MTU 错误配置解决了网络问题。
其它资源
  • 针对 Red Hat Enterprise Linux 的红帽 Ceph 存储 3 安装指南 Ubuntu安装指南中的 验证红帽 Ceph 存储网络配置 一节
  • 红帽 Ceph 存储 3 架构指南 中的 Heartbeating 部分

5.1.5. 请求速度较慢,请求被阻塞

ceph-osd 守护进程在响应请求时较慢,ceph health detail 命令返回类似如下的错误消息:

HEALTH_WARN 30 requests are blocked > 32 sec; 3 osds have slow requests
30 ops are blocked > 268435 sec
1 ops are blocked > 268435 sec on osd.11
1 ops are blocked > 268435 sec on osd.18
28 ops are blocked > 268435 sec on osd.39
3 osds have slow requests

此外,Ceph 日志包含类似于以下的错误消息:

2015-08-24 13:18:10.024659 osd.1 127.0.0.1:6812/3032 9 : cluster [WRN] 6 slow requests, 6 included below; oldest blocked for > 61.758455 secs
2016-07-25 03:44:06.510583 osd.50 [WRN] slow request 30.005692 seconds old, received at {date-time}: osd_op(client.4240.0:8 benchmark_data_ceph-1_39426_object7 [write 0~4194304] 0.69848840) v4 currently waiting for subops from [610]
此 Means 是什么

请求速度较慢的 OSD 是每个 OSD,它们无法在 osd_op_complaint_time 参数定义的时间内为队列中的每秒 I/O 操作(IOPS)提供服务。默认情况下,此参数设置为 30 秒。

造成 OSD 缓慢请求的主要原因是:

  • 与底层硬件相关的问题,如磁盘驱动器、主机、机架或网络交换机
  • 网络相关问题.这些问题通常与闪烁的 OSD 连接。详情请查看 第 5.1.4 节 “Flapping OSD”
  • 系统负载

下表显示了慢速请求的类型。使用 dump_historic_ops 管理 socket 命令来确定慢速请求的类型。有关管理套接字的详细信息,请参阅《红帽 Ceph 存储 3 管理指南》 中的使用管理 套接字 小节。

请求类型慢描述

waiting for rw locks

OSD 正在等待在 PG 上获取操作的锁定。

waiting for subops

OSD 正在等待副本 OSD 将操作应用到日志。

no flag points reached

OSD 未达到任何主要操作里程碑。

waiting for degraded object

OSD 尚未复制指定次数的对象。

要排除这个问题,请执行以下操作
  1. 确定请求缓慢或块请求的 OSD 是否共享共同的硬件部分,如磁盘驱动器、主机、机架或网络交换机。
  2. 如果 OSD 共享磁盘:

    1. 使用 smartmontools 工具检查磁盘或日志的健康状况,以确定磁盘中的任何错误。

      注意

      smartmontools 工具包括在 smartmontools 软件包中。

    2. 使用 iostat 实用程序获取 OSD 磁盘上的 I/O 等待报告(%iowai),以确定磁盘是否负载过重。

      注意

      iostat 工具包括在 sysstat 软件包中。

  3. 如果 OSD 共享主机:

    1. 检查 RAM 和 CPU 使用率
    2. 使用 netstat 实用程序查看网络接口控制器(NIC)上的网络统计信息,并对任何网络问题进行故障排除。如需更多信息,请参阅 第 3 章 网络问题故障排除
  4. 如果 OSD 共享机架,请检查机架的网络交换机。例如,如果您使用巨型帧,请验证路径中的 NIC 是否已设置了巨型帧。
  5. 如果您无法确定请求速度较慢的 OSD 共享的硬件部分,或者无法对硬件和网络问题进行故障排除和修复,请打开支持票据。详情请查看 第 9 章 联系红帽支持服务
另请参阅
  • 《红帽 Ceph 存储 3 管理指南 》中的使用管理 套接字 一节

5.2. 停止并启动重新平衡

当 OSD 出现故障或您停止时,CRUSH 算法会自动启动重新平衡过程,以在剩余的 OSD 之间重新分发数据。

因此,重新平衡可能需要时间和资源,因此,应考虑在故障排除期间停止重新平衡或维护 OSD。要做到这一点,在停止 OSD 前设置 noout 标记:

# ceph osd set noout

完成故障排除或维护后,取消设置 noout 标志以开始重新平衡:

# ceph osd unset noout
注意

停止的 OSD 中的放置组在故障排除和维护期间变为 degraded

另请参阅

5.3. 挂载 OSD 数据分区

如果没有正确挂载 OSD 数据分区,ceph-osd 守护进程就无法启动。如果您发现分区没有按预期挂载,请按照本节中的步骤进行挂载。

步骤:挂载 OSD 数据分区

  1. 挂载分区:

    # mount -o noatime <partition> /var/lib/ceph/osd/<cluster-name>-<osd-number>

    使用专用于 OSD 数据的 OSD 驱动器中的分区路径替换 <partition>。指定集群名称和 OSD 号,例如:

    # mount -o noatime /dev/sdd1 /var/lib/ceph/osd/ceph-0
  2. 尝试启动失败的 ceph-osd 守护进程:

    # systemctl start ceph-osd@<OSD-number>

    <OSD-number> 替换为 OSD 的 ID,例如:

    # systemctl start ceph-osd@0

另请参阅

5.4. 替换 OSD 驱动器

Ceph 专为容错设计,这意味着它可以在 degraded 状态下运行,而不丢失数据。因此,即使数据存储驱动器失败,Ceph 也能运行。在故障驱动器的上下文中,degraded 状态意味着存储在其他 OSD 上的数据的额外副本将自动回填到集群中的其他 OSD。不过,如果发生这种情况,请替换失败的 OSD 驱动器,并手动重新创建 OSD。

当驱动器失败时,Ceph 会将该 OSD 报告为 down:

HEALTH_WARN 1/3 in osds are down
osd.0 is down since epoch 23, last address 192.168.106.220:6800/11080
注意

Ceph 也可以因为网络或权限问题将 OSD 标记为 down。详情请查看 第 5.1.3 节 “个或更多 OSD 发生故障”

现代服务器通常使用热插拔驱动器进行部署,以便您可以将失败的驱动器替换为新的驱动器,而无需关闭节点。整个流程包括这些步骤:

  1. 从 Ceph 集群移除 OSD。详情请参阅 从 Ceph 集群删除 OSD 过程。
  2. 替换驱动器。详情请查看 替换 Physical Drive 部分。
  3. 将 OSD 添加到集群。详情请参阅 在 Ceph 集群中添加 OSD

开始前

  1. 确定哪个 OSD 为 down:

    # ceph osd tree | grep -i down
    ID WEIGHT  TYPE NAME      UP/DOWN REWEIGHT PRIMARY-AFFINITY
     0 0.00999         osd.0     down  1.00000          1.00000
  2. 确保 OSD 进程已经停止。从 OSD 节点运行以下命令:

    # systemctl status ceph-osd@<OSD-number>

    使用标记为 down 的 OSD 的 ID 替换 <OSD-number>,例如:

    # systemctl status ceph-osd@osd.0
    ...
       Active: inactive (dead)

    如果 ceph-osd 守护进程正在运行。如需有关对标记为 down 的 OSD 进行故障排除(它们对应的 ceph-osd 守护进程正在运行)的更多详细信息,请参阅 第 5.1.3 节 “个或更多 OSD 发生故障”

步骤:从 Ceph 集群中删除 OSD

  1. 将 OSD 标记为 out

    # ceph osd out osd.<OSD-number>

    使用标记为 down 的 OSD 的 ID 替换 <OSD-number>,例如:

    # ceph osd out osd.0
    marked out osd.0.
    注意

    如果 OSD 是 down,当它没有从 OSD 接收任何心跳数据包时,Ceph 会在 600 秒后自动将其标记为 out。发生这种情况时,具有故障 OSD 数据副本的其他 OSD 开始回填,以确保集群中存在所需的副本数。当集群回填时,集群将处于 degraded 状态。

  2. 确保故障 OSD 正在回填。输出将包含类似如下的信息:

    # ceph -w | grep backfill
    2017-06-02 04:48:03.403872 mon.0 [INF] pgmap v10293282: 431 pgs: 1 active+undersized+degraded+remapped+backfilling, 28 active+undersized+degraded, 49 active+undersized+degraded+remapped+wait_backfill, 59 stale+active+clean, 294 active+clean; 72347 MB data, 101302 MB used, 1624 GB / 1722 GB avail; 227 kB/s rd, 1358 B/s wr, 12 op/s; 10626/35917 objects degraded (29.585%); 6757/35917 objects misplaced (18.813%); 63500 kB/s, 15 objects/s recovering
    2017-06-02 04:48:04.414397 mon.0 [INF] pgmap v10293283: 431 pgs: 2 active+undersized+degraded+remapped+backfilling, 75 active+undersized+degraded+remapped+wait_backfill, 59 stale+active+clean, 295 active+clean; 72347 MB data, 101398 MB used, 1623 GB / 1722 GB avail; 969 kB/s rd, 6778 B/s wr, 32 op/s; 10626/35917 objects degraded (29.585%); 10580/35917 objects misplaced (29.457%); 125 MB/s, 31 objects/s recovering
    2017-06-02 04:48:00.380063 osd.1 [INF] 0.6f starting backfill to osd.0 from (0'0,0'0] MAX to 2521'166639
    2017-06-02 04:48:00.380139 osd.1 [INF] 0.48 starting backfill to osd.0 from (0'0,0'0] MAX to 2513'43079
    2017-06-02 04:48:00.380260 osd.1 [INF] 0.d starting backfill to osd.0 from (0'0,0'0] MAX to 2513'136847
    2017-06-02 04:48:00.380849 osd.1 [INF] 0.71 starting backfill to osd.0 from (0'0,0'0] MAX to 2331'28496
    2017-06-02 04:48:00.381027 osd.1 [INF] 0.51 starting backfill to osd.0 from (0'0,0'0] MAX to 2513'87544
  3. 从 CRUSH map 移除 OSD:

    # ceph osd crush remove osd.<OSD-number>

    使用标记为 down 的 OSD 的 ID 替换 <OSD-number>,例如:

    # ceph osd crush remove osd.0
    removed item id 0 name 'osd.0' from crush map
  4. 移除与 OSD 相关的身份验证密钥:

    # ceph auth del osd.<OSD-number>

    使用标记为 down 的 OSD 的 ID 替换 <OSD-number>,例如:

    # ceph auth del osd.0
    updated
  5. 从 Ceph 存储集群中移除 OSD:

    # ceph osd rm osd.<OSD-number>

    使用标记为 down 的 OSD 的 ID 替换 <OSD-number>,例如:

    # ceph osd rm osd.0
    removed osd.0

    如果您已成功删除了 OSD,以下命令的输出中不存在它:

    # ceph osd tree
  6. 卸载失败的驱动器:

    # umount /var/lib/ceph/osd/<cluster-name>-<OSD-number>

    指定集群的名称和 OSD 的 ID,例如:

    # umount /var/lib/ceph/osd/ceph-0/

    如果您成功卸载了驱动器,以下命令输出中不存在该驱动器:

    # df -h

步骤: 替换物理驱动器

  1. 有关替换物理驱动器的详情,请查看硬件节点的文档。

    1. 如果驱动器热插拔,请将失败的驱动器替换为新驱动器。
    2. 如果驱动器不可热插拔并且节点包含多个 OSD,您可能需要关闭整个节点并替换物理驱动器。考虑阻止集群回填。详情请查看 第 5.2 节 “停止并启动重新平衡”
  2. 当驱动器显示在 /dev/ 目录中时,记录驱动器路径。
  3. 如果要手动添加 OSD,找到 OSD 驱动器并格式化磁盘。

步骤:将 OSD 添加到 Ceph 集群

  1. 再次添加 OSD。

    1. 如果您使用 Ansible 部署集群,请从 Ceph 管理服务器再次运行 ceph-ansible playbook:

      # ansible-playbook /usr/share/ceph-ansible site.yml
    2. 如果您手动添加 OSD,请参阅 Red Hat Ceph Storage 3 的 _Administration Guide_e 中的使用命令行界面添加 OSD 部分。
  2. 确保 CRUSH 层次结构准确:

    # ceph osd tree
  3. 如果您对 CRUSH 层次结构中的 OSD 的位置不满意,请将 OSD 移到所需的位置:

    ceph osd crush move <bucket-to-move> <bucket-type>=<parent-bucket>

    例如,将位于 sdd:row1 的存储桶移动到根存储桶:

    # ceph osd crush move ssd:row1 root=ssd:root

另请参阅

5.5. 增加 PID 数量

如果您的节点包含 12 个 Ceph OSD,默认的最大线程数(PID 数)可能不足,特别是在恢复期间。因此,一些 ceph-osd 守护进程可能会终止,无法再次启动。如果发生这种情况,增加允许的最大线程数。

临时增加这个数字:

# sysctl -w kernel.pid.max=4194303

要永久增加这个数字,请按如下方式更新 /etc/sysctl.conf 文件:

kernel.pid.max = 4194303

5.6. 从完全集群中删除数据

Ceph 自动防止 OSD 上达到 mon_osd_full_ratio 参数指定的容量的任何 I/O 操作,并返回 full osds 错误消息。

这个步骤演示了如何删除不必要的数据来修复这个错误。

注意

mon_osd_full_ratio 参数设置创建集群时的 full_ratio 参数的值。之后您无法更改 mon_osd_full_ratio 的值。要临时增加 full_ratio 值,请改为增加 set-full-ratio

步骤: 从完全的集群中删除数据

  1. 确定 full_ratio 的当前值,默认设置为 0.95

    # ceph osd dump | grep -i full
    full_ratio 0.95
  2. 通过将 set-full-ratio 设置为 0.97 来临时增加值:

    # ceph osd set-full-ratio 0.97
    重要

    红帽强烈建议不要将 set-full-ratio 设置为大于 0.97 的值。将此参数设置为更高的值会使恢复过程变得更加困难。因此,您可能根本无法恢复完整的 OSD。

  3. 验证您是否成功将该参数设置为 0.97

    # ceph osd dump | grep -i full
    full_ratio 0.97
  4. 监控集群状态:

    # ceph -w

    旦集群将状态从 full 更改为 nearfull,请删除任何不必要的数据。

  5. full_ratio 的值重新设置为 0.95

    # ceph osd set-full-ratio 0.95
  6. 验证您是否成功将该参数设置为 0.95

    # ceph osd dump | grep -i full
    full_ratio 0.95

另请参阅

第 6 章 多站点 Ceph 对象网关故障排除

本章包含有关如何修复与多站点 Ceph 对象网关配置和运营条件相关的最常见错误的信息。

6.1. 先决条件

  • 正在运行的红帽 Ceph 存储 3 环境。
  • 正在运行的 Ceph 对象网关.

6.2. Ceph 对象网关的代码定义错误

Ceph 对象网关日志包含错误和警告消息,以协助对环境中条件进行故障排除。下面列出了一些常见的解决方案,并给出了建议的解决方案。如需其他帮助,请联系红帽支持团队

常见错误消息

data_sync: ERROR: a sync operation returned error
这是提示较低级别 bucket 同步进程返回错误的高级别数据同步过程。此消息冗余;存储桶同步错误出现在日志中。
data sync: ERROR: failed to sync object: <bucket name>:<object name>
进程无法通过 HTTP 从远程网关获取所需的对象,或者进程无法将该对象写入 RADOS,还会重试。
data sync: ERROR: failure in sync, backing out (sync_status=2)
代表上述条件之一的低级别消息,特别是数据在同步前被删除,因此会显示 -2 ENOENT 状态。
data sync: ERROR: failure in sync, backing out (sync_status=-5)
反映上述条件之一的低级别消息,特别是我们未能将该对象写入 RADOS,因此显示 -5 EIO
ERROR: failed to fetch remote data log info: ret=11
这是来自 libcurlEAGAIN 通用错误代码,反映来自另一个网关的错误条件。默认情况下,它将重试。
meta sync: ERROR: failed to read mdlog info with (2) No such file or directory
mdlog 的分片从未创建,因此无法同步。

同步错误消息

failed to sync object
进程无法通过 HTTP 从远程网关获取此对象,或者未能将该对象写入 RADOS,还会重试。
failed to sync bucket instance: (11) Resource temporarily unavailable
主要和次要区域之间的连接问题。
failed to sync bucket instance: (125) Operation canceled
对同一 RADOS 对象的写入之间存在一个跟踪条件。

6.3. 同步多站点 Ceph 对象网关

多站点同步从其它区域读取更改日志。要从元数据和数据 loags 中获取同步进度的高级视图,您可以使用以下命令:

radosgw-admin sync status

此命令列出源区域后面的日志分片(若有)。

如果以上运行的同步状态的结果返回日志分片,请运行以下命令来替换 X 的 shard-id。

radosgw-admin data sync status --shard-id=X
replace…​
X,具有分片 ID 号。

示例

[root@rgw ~]# radosgw-admin data sync status --shard-id=27
{
  "shard_id": 27,
  "marker": {
         "status": "incremental-sync",
         "marker": "1_1534494893.816775_131867195.1",
         "next_step_marker": "",
         "total_entries": 1,
         "pos": 0,
         "timestamp": "0.000000"
   },
   "pending_buckets": [],
   "recovering_buckets": [
         "pro-registry:4ed07bb2-a80b-4c69-aa15-fdc17ae6f5f2.314303.1:26"
   ]
}

输出列出了同步旁边的存储桶,以及会因为前面的错误而重试哪些存储桶(若有)。

通过以下命令检查各个 bucket 的状态,将 bucket ID 替换为 X

radosgw-admin bucket sync status --bucket=X.
replace…​
X,具有存储桶的 ID 号。

结果显示哪些存储桶索引日志分片位于其源区后面。

同步中的一个常见错误是 EBUSY,这意味着同步已在进行中,通常在另一个网关中。读取写入到同步错误日志的错误,可以使用以下命令进行读取:

radosgw-admin sync error list

同步过程将重试,直到成功为止。错误仍可能发生,可能需要干预。

6.3.1. 多站点 Ceph 对象网关数据同步的性能计数器

以下性能计数器可用于 Ceph 对象网关的多站点配置来测量数据同步:

  • poll_latency 测量远程复制日志的请求延迟。
  • fetch_bytes 测量数据同步获取的对象数量和字节数。

使用 ceph daemon .. perf dump 命令查看性能计数器的当前指标数据:

# ceph daemon /var/run/ceph/{rgw}.asok

输出示例:

{
    "data-sync-from-us-west": {
        "fetch bytes": {
            "avgcount": 54,
            "sum": 54526039885
        },
        "fetch not modified": 7,
        "fetch errors": 0,
        "poll latency": {
            "avgcount": 41,
            "sum": 2.533653367,
            "avgtime": 0.061796423
        },
        "poll errors": 0
    }
}
注意

您必须从运行守护进程的节点运行 ceph daemon 命令。

其它资源

第 7 章 PG 故障排除

本节介绍修复与 Ceph 放置组(PG)相关的最常见错误。

开始前

7.2. 列出 staleinactiveunclean 状态中的 PG

失败后,PG 会进入 degradedpeering 等状态。这个状态表示通过故障恢复过程的正常进度。

但是,如果 PG 处于这些状态之一的时间比预期长,它可以代表更大的问题。监控器报告 PG 处于不最佳状态时。

下表列出了这些状态及简短的说明:

状态它的含义大多数常见原因请查看

inactive

PG 尚未能够服务读/写请求。

  • 对等问题

第 7.1.4 节 “不活跃的 PG”

unclean

PG 包含的对象不会复制所需的次数。些情况阻止 PG 恢复。

  • unfound 对象
  • OSD 是 down
  • 配置不正确

第 7.1.3 节 “unclean Placement Groups”

stale

ceph-osd 守护进程尚未更新 PG 的状态。

  • OSD 是 down

第 7.1.1 节 “过时的 PG”

Ceph 配置文件中的 mon_pg_stuck_threshold 参数决定放置组在 inactiveuncleanstale 之后的秒数。

列出卡住 PG:

# ceph pg dump_stuck inactive
# ceph pg dump_stuck unclean
# ceph pg dump_stuck stale

另请参阅

7.3. 列出清单

使用 rados 工具列出对象不同副本中的不一致。使用 --format=json-pretty 选项列出更详细的输出。

您可以列出:

列出池中包含的 PG

rados list-inconsistent-pg <pool> --format=json-pretty

例如,列出名为 data 的池中所有不一致的 PG:

# rados list-inconsistent-pg data --format=json-pretty
[0.6]

列出 PG 中的清单对象

rados list-inconsistent-obj <placement-group-id>

例如,列出放置组中 ID 为 0.6 的不一致对象:

# rados list-inconsistent-obj 0.6
{
    "epoch": 14,
    "inconsistents": [
        {
            "object": {
                "name": "image1",
                "nspace": "",
                "locator": "",
                "snap": "head",
                "version": 1
            },
            "errors": [
                "data_digest_mismatch",
                "size_mismatch"
            ],
            "union_shard_errors": [
                "data_digest_mismatch_oi",
                "size_mismatch_oi"
            ],
            "selected_object_info": "0:602f83fe:::foo:head(16'1 client.4110.0:1 dirty|data_digest|omap_digest s 968 uv 1 dd e978e67f od ffffffff alloc_hint [0 0 0])",
            "shards": [
                {
                    "osd": 0,
                    "errors": [],
                    "size": 968,
                    "omap_digest": "0xffffffff",
                    "data_digest": "0xe978e67f"
                },
                {
                    "osd": 1,
                    "errors": [],
                    "size": 968,
                    "omap_digest": "0xffffffff",
                    "data_digest": "0xe978e67f"
                },
                {
                    "osd": 2,
                    "errors": [
                        "data_digest_mismatch_oi",
                        "size_mismatch_oi"
                    ],
                    "size": 0,
                    "omap_digest": "0xffffffff",
                    "data_digest": "0xffffffff"
                }
            ]
        }
    ]
}

以下字段对于决定造成不一致的原因非常重要:

  • name:副本不一致的对象名称。
  • nspace: 是池的逻辑分隔的命名空间。默认情况下是空的。
  • locator: 用于替代放置对象名称的键。
  • snap:对象的快照 ID。对象的唯一可写版本名为 head。如果对象是克隆,则此字段包含其顺序 ID。
  • version:副本不一致的对象的版本 ID。每个对象写入操作都会递增它。
  • errors: 表明分片之间不一致的错误列表,但不决定哪个分片或分片不正确。请参阅 shard 数组来进一步调查错误。

    • data_digest_mismatch:从一个 OSD 读取的副本摘要与其他 OSD 不同。
    • size_mismatch: 克隆的大小或 head 对象与预期不匹配。
    • read_error: 此错误表示极有可能因磁盘错误而导致不一致。
  • union_shard_error: 与分片相关的所有错误的并集。这些错误连接到有故障的分片。以 oi 结尾的错误表示您必须将故障对象的信息与所选对象的信息进行比较。请参阅 shard 数组来进一步调查错误。

    在上例中,存储在 osd.2 中的对象副本与存储在 osd.0osd.1 中的副本不同。特别是,副本摘要不是 0xffffffff,而不是从从 osd.2 读取的分片计算,而是 0xe978e67f。另外,从 osd.2 读取的副本大小为 0,而 osd.0osd.1 报告的大小为 968。

列出 PG 中的实例快照集

rados list-inconsistent-snapset <placement-group-id>

例如,列出 ID 为 0.23 的 PG 中的不一致快照集(snapsets):

# rados list-inconsistent-snapset 0.23 --format=json-pretty
{
    "epoch": 64,
    "inconsistents": [
        {
            "name": "obj5",
            "nspace": "",
            "locator": "",
            "snap": "0x00000001",
            "headless": true
        },
        {
            "name": "obj5",
            "nspace": "",
            "locator": "",
            "snap": "0x00000002",
            "headless": true
        },
        {
            "name": "obj5",
            "nspace": "",
            "locator": "",
            "snap": "head",
            "ss_attr_missing": true,
            "extra_clones": true,
            "extra clones": [
                2,
                1
            ]
        }
    ]

该命令返回以下错误:

  • ss_attr_missing:缺少一个或多个属性。属性是关于作为键值对列表编码到快照集的快照的信息。
  • ss_attr_corrupted: 一个或多个属性无法解码。
  • clone_missing:缺少克隆。
  • snapset_mismatch:快照集本身不一致。
  • head_mismatch: 快照集表示 head 存在或不存在,但清理结果会报告其他情况。
  • headless: 快照集的 head 缺失。
  • size_mismatch: 克隆的大小或 head 对象与预期不匹配。

另请参阅

7.4. 修复事件 PG

由于深度清理过程中出现错误,一些 PG 可以包含不一致的情况。Ceph 将这样的放置组报告为 inconsistent:

HEALTH_ERR 1 pgs inconsistent; 2 scrub errors
pg 0.6 is active+clean+inconsistent, acting [0,1,2]
2 scrub errors
警告

您只能修复某些不一致的问题。如果 Ceph 日志包括以下错误,则不要修复 PG:

<pg.id> shard <osd>: soid <object> digest <digest> != known digest <digest>
<pg.id> shard <osd>: soid <object> omap_digest <digest> != known omap_digest <digest>

相反,打开支持问题单。详情请查看 第 9 章 联系红帽支持服务

修复 inconsistent 放置组:

ceph pg repair <id>

使用 inconsistent 放置组的 ID 替换 <id>

另请参阅

7.5. 增加 PG 数量

放置组(PG)计数不足,会影响 Ceph 集群和数据分布的性能。它是 nearfull osds 错误消息的主要原因之一。

建议比率为每个 OSD 100 到 300 个 PG。当您向集群添加更多 OSD 时,这个比率可能会降低。

pg_numpgp_num 参数决定了 PG 计数。这些参数为每个池配置,因此您必须单独调整每个池的 PG 数较低。

重要

增加 PG 数量是您可以在 Ceph 集群上执行的一个最密集型进程。如果不以缓慢、有方法的方式完成,这个过程可能会对性能有严重影响。增加 pgp_num 后,将无法停止或撤销这个过程,您必须完成它。

考虑在业务关键处理时间分配之外增加 PG 数量,并提醒所有客户端可能会对性能造成影响。

如果集群处于 HEALTH_ERR 状态,则不要更改 PG 计数。

步骤:增加 PG Count

  1. 减少数据重新发布和恢复对单个 OSD 和 OSD 主机的影响:

    1. 降低 osd max backfillsosd_recovery_max_activeosd_recovery_op_priority 参数的值:

      # ceph tell osd.* injectargs '--osd_max_backfills 1 --osd_recovery_max_active 1 --osd_recovery_op_priority 1'
    2. 禁用低级和深度清理:

      # ceph osd set noscrub
      # ceph osd set nodeep-scrub
  2. 使用 每个池计算器的 Ceph PG(PG) 来计算 pg_numpgp_num 参数的最佳值。
  3. 以小增量增加 pg_num 值,直到您达到所需的值。

    1. 确定启动递增值。使用一个非常低的值(2 的电源),并在您确定对集群的影响时增加这个值。最佳的值取决于池大小、OSD 数和客户端 I/O 负载。
    2. 递增 pg_num 值:

      ceph osd pool set <pool> pg_num <value>

      指定池名称和新值,例如:

      # ceph osd pool set data pg_num 4
    3. 监控集群的状态:

      # ceph -s

      PG 状态将从 creating 变为 active+clean。等待所有 PG 都处于 active+clean 状态。

  4. 以小增量增加 pgp_num 值,直到您达到所需的值:

    1. 确定启动递增值。使用一个非常低的值(2 的电源),并在您确定对集群的影响时增加这个值。最佳的值取决于池大小、OSD 数和客户端 I/O 负载。
    2. 递增 pgp_num 值:

      ceph osd pool set <pool> pgp_num <value>

      指定池名称和新值,例如:

      # ceph osd pool set data pgp_num 4
    3. 监控集群的状态:

      # ceph -s

      PGs 状态将更改为 peeringwait_backfillbackfillingrecover 等。等待所有 PG 都处于 active+clean 状态。

  5. 对 PG 数量不足的所有池重复上述步骤。
  6. osd max backfillsosd_recovery_max_activeosd_recovery_op_priority 设置为默认值:

    # ceph tell osd.* injectargs '--osd_max_backfills 1 --osd_recovery_max_active 3 --osd_recovery_op_priority 3'
  7. 启用低级和深度清理:

    # ceph osd unset noscrub
    # ceph osd unset nodeep-scrub

另请参阅

第 8 章 对象故障排除

作为存储管理员,您可以使用 ceph-objectstore-tool 实用程序执行高级别或低级对象操作。ceph-objectstore-tool 工具可帮助您排除与特定 OSD 或放置组中对象相关的问题。

重要

操作对象可能会导致无法恢复的数据丢失。在使用 ceph-objectstore-tool 实用程序前,请联系红帽支持。

8.1. 先决条件

  • 验证没有与网络相关的问题。

8.2. 高级对象操作故障排除

作为存储管理员,您可以使用 ceph-objectstore-tool 工具执行高级别对象操作。ceph-objectstore-tool 工具支持以下高级对象操作:

  • 列出对象
  • 列出丢失的对象
  • 修复丢失的对象
重要

操作对象可能会导致无法恢复的数据丢失。在使用 ceph-objectstore-tool 实用程序前,请联系红帽支持。

8.2.1. 先决条件

  • 对 Ceph OSD 节点具有 root 访问权限.

8.2.2. 列出对象

OSD 可以包含零个到多个 PG 的 PG,对放置组(PG)中的多个对象包含零。ceph-objectstore-tool 工具允许您列出 OSD 中存储的对象。

先决条件

  • 对 Ceph OSD 节点具有 root 访问权限.
  • 停止 ceph-osd 守护进程。

流程

  1. 验证适当的 OSD 是否停机:

    语法

    systemctl status ceph-osd@$OSD_NUMBER

    示例

    [root@osd ~]# systemctl status ceph-osd@1

  2. 识别 OSD 内的所有对象,而不考虑 PG:

    语法

    ceph-objectstore-tool --data-path $PATH_TO_OSD --op list

    示例

    [root@osd ~]# ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-0 --op list

  3. 识别 PG 中的所有对象:

    语法

    ceph-objectstore-tool --data-path $PATH_TO_OSD --pgid $PG_ID --op list

    示例

    [root@osd ~]# ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-0 --pgid 0.1c --op list

  4. 识别对象所属的 PG:

    语法

    ceph-objectstore-tool --data-path $PATH_TO_OSD --op list $OBJECT_ID

    示例

    [root@osd ~]# ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-0 --op list default.region

其它资源

8.2.3. 修复丢失的对象

您可以使用 ceph-objectstore-tool 实用程序列出并修复 Ceph OSD 中存储的 和未找到的对象。这个过程只适用于旧对象。

先决条件

  • 对 Ceph OSD 节点具有 root 访问权限.
  • 停止 ceph-osd 守护进程。

流程

  1. 验证适当的 OSD 是否停机:

    语法

    systemctl status ceph-osd@$OSD_NUMBER

    示例

    [root@osd ~]# systemctl status ceph-osd@1

  2. 列出所有丢失的旧对象:

    语法

    ceph-objectstore-tool --data-path $PATH_TO_OSD --op fix-lost --dry-run

    示例

    [root@osd ~]# ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-0 --op fix-lost --dry-run

  3. 使用 ceph-objectstore-tool 工具修复 丢失和未找到 的对象。选择适当的情况:

    1. 修复所有丢失的对象:

      语法

      ceph-objectstore-tool --data-path $PATH_TO_OSD --op fix-lost

      示例

      [root@osd ~]# ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-0 --op fix-lost

    2. 修复 PG 中丢失的所有对象:

      语法

      ceph-objectstore-tool --data-path $PATH_TO_OSD --pgid $PG_ID --op fix-lost

      示例

      [root@osd ~]# ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-0 --pgid 0.1c --op fix-lost

    3. 使用标识符修复丢失的对象:

      语法

      ceph-objectstore-tool --data-path $PATH_TO_OSD --op fix-lost $OBJECT_ID

      示例

      [root@osd ~]# ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-0 --op fix-lost default.region

其它资源

8.3. 低级对象操作故障排除

作为存储管理员,您可以使用 ceph-objectstore-tool 工具执行低级对象操作。ceph-objectstore-tool 工具支持以下低级别对象操作:

  • 操作对象的内容
  • 删除对象
  • 列出对象映射(OMAP)
  • 操作 OMAP 标头
  • 操作 OMAP 密钥
  • 列出对象的属性
  • 操作对象的属性键
重要

操作对象可能会导致无法恢复的数据丢失。在使用 ceph-objectstore-tool 实用程序前,请联系红帽支持。

8.3.1. 先决条件

  • 对 Ceph OSD 节点具有 root 访问权限.

8.3.2. 操作对象的内容

使用 ceph-objectstore-tool 工具,您可以在对象中获取或设置字节。

重要

在对象上设置字节可能会导致无法恢复的数据丢失。要防止数据丢失,请为对象制作备份副本。

先决条件

  • 对 Ceph OSD 节点具有 root 访问权限.
  • 停止 ceph-osd 守护进程。

流程

  1. 验证适当的 OSD 是否停机:

    语法

    systemctl status ceph-osd@$OSD_NUMBER

    示例

    [root@osd ~]# systemctl status ceph-osd@1

  2. 通过列出 OSD 或 PG(PG)的对象来查找对象。
  3. 在对象中设置字节前,请进行备份和对象的工作副本:

    语法

    ceph-objectstore-tool --data-path $PATH_TO_OSD --pgid $PG_ID \
    $OBJECT \
    get-bytes > $OBJECT_FILE_NAME
    
    ceph-objectstore-tool --data-path $PATH_TO_OSD --pgid $PG_ID \
    $OBJECT \
    get-bytes > $OBJECT_FILE_NAME

    示例

    [root@osd ~]# ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-0 --pgid 0.1c \
    '{"oid":"zone_info.default","key":"","snapid":-2,"hash":235010478,"max":0,"pool":11,"namespace":""}'  \
    get-bytes > zone_info.default.backup
    
    [root@osd ~]# ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-0 --pgid 0.1c \
    '{"oid":"zone_info.default","key":"","snapid":-2,"hash":235010478,"max":0,"pool":11,"namespace":""}'  \
    get-bytes > zone_info.default.working-copy

  4. 编辑工作复制对象文件,并相应地修改对象内容。
  5. 设置对象的字节:

    语法

    ceph-objectstore-tool --data-path $PATH_TO_OSD --pgid $PG_ID \
    $OBJECT \
    set-bytes < $OBJECT_FILE_NAME

    示例

    [root@osd ~]# ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-0 --pgid 0.1c \
    '{"oid":"zone_info.default","key":"","snapid":-2,"hash":235010478,"max":0,"pool":11,"namespace":""}' \
    set-bytes < zone_info.default.working-copy

其它资源

8.3.3. 删除对象

使用 ceph-objectstore-tool 工具删除对象。通过移除对象,其内容和引用将从放置组(PG)中删除。

重要

对象被删除后,您就无法重新创建对象。

先决条件

  • 对 Ceph OSD 节点具有 root 访问权限.
  • 停止 ceph-osd 守护进程。

流程

  1. 删除对象:

    语法

    ceph-objectstore-tool --data-path $PATH_TO_OSD --pgid $PG_ID \
    $OBJECT \
    remove

    示例

    [root@osd ~]# ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-0 --pgid 0.1c \
    '{"oid":"zone_info.default","key":"","snapid":-2,"hash":235010478,"max":0,"pool":11,"namespace":""}' \
    remove

其它资源

8.3.4. 列出对象映射

使用 ceph-objectstore-tool 工具列出对象映射的内容(OMAP)。输出为您提供了键列表。

先决条件

  • 对 Ceph OSD 节点具有 root 访问权限.
  • 停止 ceph-osd 守护进程。

流程

  1. 验证适当的 OSD 是否停机:

    语法

    systemctl status ceph-osd@$OSD_NUMBER

    示例

    [root@osd ~]# systemctl status ceph-osd@1

  2. 列出对象映射:

    语法

    ceph-objectstore-tool --data-path $PATH_TO_OSD --pgid $PG_ID \
    $OBJECT \
    list-omap

    示例

    [root@osd ~]# ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-0 --pgid 0.1c \
    '{"oid":"zone_info.default","key":"","snapid":-2,"hash":235010478,"max":0,"pool":11,"namespace":""}' \
    list-omap

其它资源

8.3.5. 操作对象映射标头

ceph-objectstore-tool 工具将使用与对象的键关联的值输出对象映射(OMAP)标头。

注意

如果使用 FileStore 作为 OSD 后端对象存储,则在获取或设置对象映射标头时添加 --journal-path $PATH_TO_JOURNAL 参数。其中 $PATH_TO_JOURNAL 变量是 OSD 日志的绝对路径,如 /var/lib/ceph/osd/ceph-0/journal

先决条件

  • 对 Ceph OSD 节点具有 root 访问权限.
  • 停止 ceph-osd 守护进程。

流程

  1. 验证适当的 OSD 是否停机:

    语法

    systemctl status ceph-osd@$OSD_NUMBER

    示例

    [root@osd ~]# systemctl status ceph-osd@1

    • 获取对象映射标头:

      语法

      ceph-objectstore-tool --data-path $PATH_TO_OSD \
      --pgid $PG_ID $OBJECT \
      get-omaphdr > $OBJECT_MAP_FILE_NAME

      示例

      [root@osd ~]# ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-0 \
      --pgid 0.1c '{"oid":"zone_info.default","key":"","snapid":-2,"hash":235010478,"max":0,"pool":11,"namespace":""}'  \
      get-omaphdr > zone_info.default.omaphdr.txt

    • 设置对象映射标头:

      语法

      ceph-objectstore-tool --data-path $PATH_TO_OSD \
      --pgid $PG_ID $OBJECT \
      get-omaphdr < $OBJECT_MAP_FILE_NAME

      示例

      [root@osd ~]# ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-0 \
      --pgid 0.1c '{"oid":"zone_info.default","key":"","snapid":-2,"hash":235010478,"max":0,"pool":11,"namespace":""}'  \
      set-omaphdr < zone_info.default.omaphdr.txt

其它资源

8.3.6. 操作对象映射密钥

使用 ceph-objectstore-tool 工具更改对象映射(OMAP)密钥。您需要提供数据路径、放置组标识符(PG ID)、对象和 OMAP 中的密钥。

注意

如果使用 FileStore 作为 OSD 后端对象存储,则在获取、设置或删除对象映射密钥时添加 --journal-path $PATH_TO_JOURNAL 参数。其中 $PATH_TO_JOURNAL 变量是 OSD 日志的绝对路径,如 /var/lib/ceph/osd/ceph-0/journal

先决条件

  • 对 Ceph OSD 节点具有 root 访问权限.
  • 停止 ceph-osd 守护进程。

流程

  • 获取对象映射键:

    语法

    ceph-objectstore-tool --data-path $PATH_TO_OSD \
    --pgid $PG_ID $OBJECT \
    get-omap $KEY > $OBJECT_MAP_FILE_NAME

    示例

    [root@osd ~]# ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-0 \
    --pgid 0.1c '{"oid":"zone_info.default","key":"","snapid":-2,"hash":235010478,"max":0,"pool":11,"namespace":""}'  \
    get-omap "" > zone_info.default.omap.txt

  • 设置对象映射键:

    语法

    ceph-objectstore-tool --data-path $PATH_TO_OSD \
    --pgid $PG_ID $OBJECT \
    set-omap $KEY < $OBJECT_MAP_FILE_NAME

    示例

    [root@osd ~]# ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-0 \
    --pgid 0.1c '{"oid":"zone_info.default","key":"","snapid":-2,"hash":235010478,"max":0,"pool":11,"namespace":""}'  \
    set-omap "" < zone_info.default.omap.txt

  • 删除对象映射键:

    语法

    ceph-objectstore-tool --data-path $PATH_TO_OSD \
    --pgid $PG_ID $OBJECT \
    rm-omap $KEY

    示例

    [root@osd ~]# ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-0 \
    --pgid 0.1c '{"oid":"zone_info.default","key":"","snapid":-2,"hash":235010478,"max":0,"pool":11,"namespace":""}'  \
    rm-omap ""

其它资源

8.3.7. 列出对象的属性

使用 ceph-objectstore-tool 实用程序列出对象的属性。输出为您提供对象的键和值。

注意

如果使用 FileStore 作为 OSD 后端对象存储,则在列出对象属性时添加 --journal-path $PATH_TO_JOURNAL 参数。其中 $PATH_TO_JOURNAL 变量是 OSD 日志的绝对路径,如 /var/lib/ceph/osd/ceph-0/journal

先决条件

  • 对 Ceph OSD 节点具有 root 访问权限.
  • 停止 ceph-osd 守护进程。

流程

  1. 验证适当的 OSD 是否停机:

    语法

    systemctl status ceph-osd@$OSD_NUMBER

    示例

    [root@osd ~]# systemctl status ceph-osd@1

  2. 列出对象的属性:

    语法

    ceph-objectstore-tool --data-path $PATH_TO_OSD \
    --pgid $PG_ID $OBJECT \
    list-attrs

    示例

    [root@osd ~]# ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-0 \
    --pgid 0.1c '{"oid":"zone_info.default","key":"","snapid":-2,"hash":235010478,"max":0,"pool":11,"namespace":""}' \
    list-attrs

其它资源

8.3.8. 操作对象属性键

使用 ceph-objectstore-tool 工具更改对象的属性。若要操作对象的属性,您需要数据和日志路径、放置组标识符(PG ID)、对象以及对象属性中的密钥。

注意

如果使用 FileStore 作为 OSD 后端对象存储,则在获取、设置或删除对象属性时添加 --journal-path $PATH_TO_JOURNAL 参数。其中 $PATH_TO_JOURNAL 变量是 OSD 日志的绝对路径,如 /var/lib/ceph/osd/ceph-0/journal

先决条件

  • 对 Ceph OSD 节点具有 root 访问权限.
  • 停止 ceph-osd 守护进程。

流程

  1. 验证适当的 OSD 是否停机:

    语法

    systemctl status ceph-osd@$OSD_NUMBER

    示例

    [root@osd ~]# systemctl status ceph-osd@1

    • 获取对象的属性:

      语法

      ceph-objectstore-tool --data-path $PATH_TO_OSD \
      --pgid $PG_ID $OBJECT \
      get-attrs $KEY > $OBJECT_ATTRS_FILE_NAME

      示例

      [root@osd ~]# ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-0 \
      --pgid 0.1c '{"oid":"zone_info.default","key":"","snapid":-2,"hash":235010478,"max":0,"pool":11,"namespace":""}' \
      get-attrs "oid" > zone_info.default.attr.txt

    • 设置对象的属性:

      语法

      ceph-objectstore-tool --data-path $PATH_TO_OSD \
      --pgid $PG_ID $OBJECT \
      set-attrs $KEY < $OBJECT_ATTRS_FILE_NAME

      示例

      [root@osd ~]# ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-0 \
      --pgid 0.1c '{"oid":"zone_info.default","key":"","snapid":-2,"hash":235010478,"max":0,"pool":11,"namespace":""}' \
      set-attrs "oid" < zone_info.default.attr.txt

    • 删除对象的属性:

      语法

      ceph-objectstore-tool --data-path $PATH_TO_OSD \
      --pgid $PG_ID $OBJECT \
      rm-attrs $KEY

      示例

      [root@osd ~]# ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-0 \
      --pgid 0.1c '{"oid":"zone_info.default","key":"","snapid":-2,"hash":235010478,"max":0,"pool":11,"namespace":""}' \
      rm-attrs "oid"

其它资源

8.4. 其它资源

第 9 章 联系红帽支持服务

如果本指南中的信息没有帮助您解决问题,本章将介绍如何联系红帽支持服务。

9.1. 为红帽支持工程师提供信息

如果您无法自行修复与 Red Hat Ceph Storage 相关的问题,请联络红帽支持服务并提供足够数量的信息,以帮助支持工程师更快地解决遇到的问题。

步骤: 向红帽支持工程师提供信息

  1. 红帽客户门户网站中创建一个支持问题单
  2. 理想情况下,请将 sosreport 附加到票据。详情请参阅 sosreport,以及如何在 Red Hat Enterprise Linux 4.6 及更新的版本中创建 sosreport。
  3. 如果 Ceph 守护进程因分段错误而失败,请考虑生成人类可读的核心转储文件。详情请查看 第 9.2 节 “生成可读的核心转储文件”

9.2. 生成可读的核心转储文件

当 Ceph 守护进程意外终止分段错误时,请收集关于其故障的信息,并将其提供给红帽支持工程师。

此类信息可加快初步调查的速度。另外,支持工程师还可将核心转储文件中的信息与 {storage-product} 集群已知的问题进行比较。

9.2.1. 先决条件

  1. 安装 ceph-debuginfo 软件包(如果尚未安装)。

    1. 启用包含 ceph-debuginfo 软件包的软件仓库:

      subscription-manager repos --enable=rhel-7-server-rhceph-3-DAEMON-debug-rpms

      根据节点类型,将 DAEMON 替换为 osdmon

    2. 安装 ceph-debuginfo 软件包:

      [root@mon ~]# yum install ceph-debuginfo
  2. 确定安装了 gdb 软件包,如果没有安装,请安装它:

    [root@mon ~]# yum install gdb

根据部署类型继续执行此步骤:

9.2.2. 在裸机部署中生成可读的核心转储文件

如果您在裸机上使用 Red Hat Ceph Storage,请按照以下步骤生成核心转储文件。

流程

  1. 为 Ceph 生成核心转储文件。

    1. 通过在 /etc/systemd/system.conf 文件中添加以下参数,为核心转储文件设置正确的 ulimits

      DefaultLimitCORE=infinity
    2. 注释掉 Ceph 守护进程服务文件中的 PrivateTmp=true 参数,该参数默认位于 /lib/systemd/system/CLUSTER_NAME-DAEMON@.service:

      [root@mon ~]# PrivateTmp=true
    3. suid_dumpable 标志设置为 2 以允许 Ceph 守护进程生成转储核心文件:

      [root@mon ~]# sysctl fs.suid_dumpable=2
    4. 调整内核转储文件位置:

      [root@mon ~]# sysctl kernel.core_pattern=/tmp/core
    5. 重新载入 systemd 服务以使更改生效:

      [root@mon ~]# systemctl daemon-reload
    6. 重启 Ceph 守护进程使更改生效:

      [root@mon ~]# systemctl restart ceph-DAEMON@ID

      指定守护进程类型(osdmon)及其 ID(OSD 的数字,或 monitor 的短主机名),例如:

      [root@mon ~]# systemctl restart ceph-osd@1
  2. 重现失败,例如尝试再次启动 守护进程。
  3. 使用 GNU Debugger(GDB)从应用程序核心转储文件中生成可读回追踪:

    gdb /usr/bin/ceph-DAEMON /tmp/core.PID

    指定失败进程的守护进程类型和 PID,例如:

    $ gdb /usr/bin/ceph-osd /tmp/core.123456

    在 GDB 命令提示中,输入 set pag offset log on 命令禁用分页并启用对文件的日志记录:

    (gdb) set pag off
    (gdb) set log on

    输入 thr a a bt full,将 backtrace 命令应用到进程的所有线程:

    (gdb) thr a a bt full

    在生成回溯追踪后,输入 set log off

    (gdb) set log off
  4. 将日志文件 gdb.txt 传输到您访问红帽客户门户网站的系统,并将其附加到支持问题单中。

9.2.3. 在容器化部署中生成可读的核心转储文件

如果您在容器中使用 {storage-product},请按照以下步骤生成内核转储文件。该流程涉及捕获内核转储文件的两个场景:

  • 当 Ceph 进程因为 SIGILL、SIGTRAP、SIGABRT 或 SIGSEGV 错误而意外终止时。

或者

  • 例如,用于调试 Ceph 进程等问题的手动消耗 CPU 周期较高,或者没有响应。

先决条件

  • 对运行 Ceph 容器的容器节点的根级别访问权限。
  • 安装适当的调试软件包。
  • 安装 GNU Project Debugger(gdb)软件包。

流程

  1. 如果 Ceph 进程因为 SIGILL、SIGTRAP、SIGABRT 或 SIGSEGV 错误意外终止:

    1. 在运行失败的 Ceph 进程的容器上,将内核模式设置为 systemd-coredump 服务,例如:

      [root@mon]# echo "| /usr/lib/systemd/systemd-coredump %P %u %g %s %t %e" > /proc/sys/kernel/core_pattern
    2. 监视因为 Ceph 进程导致的下一个容器失败,并在 /var/lib/systemd/coredump/ 目录中搜索内核转储文件,例如:

      [root@mon]# ls -ltr /var/lib/systemd/coredump
      total 8232
      -rw-r-----. 1 root root 8427548 Jan 22 19:24 core.ceph-osd.167.5ede29340b6c4fe4845147f847514c12.15622.1584573794000000.xz
  2. 为 Ceph 监控器和 Ceph Manager 手动捕获核心转储文件

    1. 从容器中获取 Ceph 守护进程的 ceph-mon 软件包详情:

      [root@mon]# docker exec -it NAME /bin/bash
      [root@mon]# rpm -qa | grep ceph

      NAME 替换为 Ceph 容器的名称。

    2. 创建备份副本并打开编辑 ceph-mon@.service 文件:

      [root@mon]# cp /etc/systemd/system/ceph-mon@.service /etc/systemd/system/ceph-mon@.service.orig
    3. ceph-mon@.service 文件中,在 [Service] 部分添加这三个选项,每个选项位于单独的行中:

      --pid=host \
      --ipc=host \
      --cap-add=SYS_PTRACE \

      示例

      [Unit]
      Description=Ceph Monitor
      After=docker.service
      
      [Service]
      EnvironmentFile=-/etc/environment
      ExecStartPre=-/usr/bin/docker rm ceph-mon-%i
      ExecStartPre=/bin/sh -c '"$(command -v mkdir)" -p /etc/ceph /var/lib/ceph/mon'
      ExecStart=/usr/bin/docker run --rm --name ceph-mon-%i \
        --memory=924m \
      --cpu-quota=100000 \
      -v /var/lib/ceph:/var/lib/ceph:z \
        -v /etc/ceph:/etc/ceph:z \
        -v /var/run/ceph:/var/run/ceph:z \
      -v /etc/localtime:/etc/localtime:ro \
      --net=host \
      --privileged=true \
      --ipc=host \ 1
      --pid=host \ 2
      --cap-add=SYS_PTRACE \ 3
      -e IP_VERSION=4 \
              -e MON_IP=10.74.131.17 \
            -e CLUSTER=ceph \
        -e FSID=9448efca-b1a1-45a3-bf7b-b55cba696a6e \
        -e CEPH_PUBLIC_NETWORK=10.74.131.0/24 \
        -e CEPH_DAEMON=MON \
         \
        registry.access.redhat.com/rhceph/rhceph-3-rhel7:latest
      ExecStop=-/usr/bin/docker stop ceph-mon-%i
      ExecStopPost=-/bin/rm -f /var/run/ceph/ceph-mon.pd-cephcontainer-mon01.asok
      Restart=always
      RestartSec=10s
      TimeoutStartSec=120
      TimeoutStopSec=15
      
      [Install]
      WantedBy=multi-user.target

    4. 重启 Ceph 监控守护进程:

      语法

      systemctl restart ceph-mon@MONITOR_ID

      MONITOR_ID 替换为 Ceph monitor 的 ID 号。

      示例

      [root@mon]# systemctl restart ceph-mon@1

    5. 在 Ceph 监控容器中安装 gdb 软件包:

      [root@mon]# docker exec -it ceph-mon-MONITOR_ID /bin/bash
      sh $ yum install gdb

      MONITOR_ID 替换为 Ceph monitor 的 ID 号。

    6. 查找进程 ID:

      语法

      ps -aef | grep PROCESS | grep -v run

      使用失败进程 的名称 替换 PROCESS,例如 ceph-mon

      示例

      [root@mon]# ps -aef | grep ceph-mon | grep -v run
      ceph       15390   15266  0 18:54 ?        00:00:29 /usr/bin/ceph-mon --cluster ceph --setroot ceph --setgroup ceph -d -i 5
      ceph       18110   17985  1 19:40 ?        00:00:08 /usr/bin/ceph-mon --cluster ceph --setroot ceph --setgroup ceph -d -i 2

    7. 生成内核转储文件:

      语法

      gcore ID

      ID 替换为您在上一步中获取的失败进程的 ID,例如 18110:

      示例

      [root@mon]# gcore 18110
      warning: target file /proc/18110/cmdline contained unexpected null characters
      Saved corefile core.18110

    8. 验证核心转储文件是否已正确生成。

      示例

      [root@mon]# ls -ltr
      total 709772
      -rw-r--r--. 1 root root 726799544 Mar 18 19:46 core.18110

    9. 在 Ceph 监控容器外部复制内核转储文件:

      [root@mon]# docker cp ceph-mon-MONITOR_ID:/tmp/mon.core.MONITOR_PID /tmp

      MONITOR_ID 替换为 Ceph monitor 的 ID 号,并将 MONITOR_PID 替换为进程 ID 号。

    10. 恢复 ceph-mon@.service 文件的备份副本:

      [root@mon]# cp /etc/systemd/system/ceph-mon@.service.orig /etc/systemd/system/ceph-mon@.service
    11. 重启 Ceph 监控守护进程:

      语法

      systemctl restart ceph-mon@MONITOR_ID

      MONITOR_ID 替换为 Ceph monitor 的 ID 号。

      示例

      [root@mon]# systemctl restart ceph-mon@1

    12. 上传内核转储文件以获取红帽支持分析,请参阅第 4 步。
  3. Ceph OSD 手动捕获核心转储文件:

    1. 从容器中获取 Ceph 守护进程的 ceph-osd 软件包详情:

      [root@osd]# docker exec -it NAME /bin/bash
      [root@osd]# rpm -qa | grep ceph

      NAME 替换为 Ceph 容器的名称。

    2. 在运行 Ceph 容器的节点中,为同一版本的 ceph-osd 软件包安装 Ceph 软件包:

      [root@osd]# yum install ceph-osd

      如果需要,请先启用适当的存储库。详情请参阅《安装指南 》中的启用红帽 Ceph 存储存储库 一节。

    3. 查找失败的进程的 ID:

      ps -aef | grep PROCESS | grep -v run

      使用失败进程 的名称 替换 PROCESS,例如 ceph-osd

      [root@osd]# ps -aef | grep ceph-osd | grep -v run
      ceph       15390   15266  0 18:54 ?        00:00:29 /usr/bin/ceph-osd --cluster ceph --setroot ceph --setgroup ceph -d -i 5
      ceph       18110   17985  1 19:40 ?        00:00:08 /usr/bin/ceph-osd --cluster ceph --setroot ceph --setgroup ceph -d -i 2
    4. 生成内核转储文件:

      gcore ID

      ID 替换为您在上一步中获取的失败进程的 ID,例如 18110:

      [root@osd]# gcore 18110
      warning: target file /proc/18110/cmdline contained unexpected null characters
      Saved corefile core.18110
    5. 验证核心转储文件是否已正确生成。

      [root@osd]# ls -ltr
      total 709772
      -rw-r--r--. 1 root root 726799544 Mar 18 19:46 core.18110
    6. 上传内核转储文件供红帽支持分析,请参见下一步。
  4. 将核心转储文件上传至红帽支持问题单中。详情请参阅向红帽支持工程师提供信息

9.2.4. 其它资源

附录 A. 子系统默认日志记录级别值

子系统日志级别内存级别

asok

1

5

auth

1

5

buffer

0

0

client

0

5

context

0

5

crush

1

5

default

0

5

filer

0

5

filestore

1

5

finisher

1

5

heartbeatmap

1

5

javaclient

1

5

journaler

0

5

journal

1

5

lockdep

0

5

mds balancer

1

5

mds locker

1

5

mds log expire

1

5

mds log

1

5

mds migrator

1

5

mds

1

5

monc

0

5

mon

1

5

ms

0

5

objclass

0

5

objectcacher

0

5

objecter

0

0

optracker

0

5

osd

0

5

paxos

0

5

perfcounter

1

5

rados

0

5

rbd

0

5

rgw

1

5

throttle

1

5

timer

0

5

tp

0

5