6.4. 在 MariaDB 集群中测试数据库复制性能

要检查 MariaDB Galera 集群的性能,请通过检查特定的 wsrep 数据库变量,对集群的复制吞吐量运行基准测试。

每次您查询这些变量之一时,FLUSH STATUS 命令会重置变量值。要运行基准测试,您必须运行多个查询并分析差异。这些差异可以帮助您确定哪个流控制对集群性能的影响。

流控制是集群用来管理复制的机制。当本地接收队列超过特定阈值时,流控制会暂停复制,直到队列大小停机为止。有关流控制的更多信息,请参阅 Galera 集群网站上的流控制

流程

  • 运行以下命令,并将 &lt ;variable > 替换为您要检查的 wsrep 数据库变量:

    $ sudo podman exec galera-bundle-podman-0 sudo mysql -B --password="[MYSQL-HIERA-PASSWORD]" -e "SHOW STATUS LIKE <varible>;"

下表列出了可用于测试数据库复制性能的 wsrep 数据库变量。

表 6.3. 检查数据库复制性能的数据库变量

变量概述使用

wsrep_local_recv_queue_avg

最后一次查询后本地接收的 write-set 队列的平均大小。

大于 0.0 的值表示节点无法快速应用 write-sets,因为它收到 write-sets,后者会触发复制节流。检查 wsrep_local_recv_queue_minwsrep_local_recv_queue_max 详细查看该基准。

wsrep_local_send_queue_avg

最后一次查询后的平均发送队列长度。

值大于 0.0 表示复制节流和网络吞吐量问题的可能性较高。

wsrep_local_recv_queue_min and wsrep_local_recv_queue_max

最后一次查询后本地接收队列的最小和最大大小。

如果 wsrep_local_recv_queue_avg 的值大于 0.0,您可以检查这些变量来确定队列大小的范围。

wsrep_flow_control_paused

在上次查询后,流控制暂停节点的时间部分。

值大于 0.0 表示流控制暂停该节点。要确定暂停的持续时间,使用查询间隔的秒数乘以 wsrep_flow_control_paused 值。最佳值尽可能接近 0.0

例如:

  • 如果在最后一次查询的 1 分钟后 wsrep_flow_control_paused 的值为 0.50,则 Flow Control 会暂停节点 30 秒。
  • 如果 wsrep_flow_control_paused 的值在上一次查询后为 1.0,则流控制暂停了整个一分钟的节点。

wsrep_cert_deps_distance

等级和最高序列号(seqno)值之间可以并行应用的平均区别

对于节流和暂停,则此变量表示平均可以并行应用多少个写集。将值与 wsrep_slave_threads 变量进行比较,以查看实际可同时应用多少个 write-sets。

wsrep_slave_threads

可同时应用的线程数

您可以增加该值来同时应用更多线程,这会增加 wsrep_cert_deps_distance 的值。wsrep_slave_threads 的值不能大于节点中 CPU 内核数。

例如,如果 wsrep_cert_deps_distance 值为 20,您可以提高 24wsrep_slave_threads 的值来增加该节点可以应用的 write-sets 数量。

如果有问题的节点已经有最佳 wsrep_slave_threads 值,您可以在调查可能的连接问题时从集群中删除该节点。