AntDB数据库常见问题FAQ——节点down后恢复

亚信AntDB数据库 2023-02-28

398

coordinator 节点宕机

当coordinator节点所在主机宕机后又不能及时恢复，会影响集群的DDL语句无法执行，DML语句不受影响，此时需要操作如下步骤：

通过adbmgr移除不可用coordinator节点：

remove coordinator coord2; # name替换成宕机的节点名称
drop coordinator coord2;
复制

此时DDL语句可以正常执行。

在主机恢复后，通过如下操作重新添加该coordinator节点：

add coordinator coord2 (host=adb02,port=5432,path='/data/adb/coord');
clean coordinator coord2;
append coordinator coord1 to  coord2;  # coord1为当前集群中的正常coordinator节点。
append activate coordinator coord2;
复制

datanode节点宕机后恢复

datanode节点所在主机宕机后，repmgrd后台进程会自动切换到备节点。

在主机恢复后，需要将down掉的节点重新添加到集群。

如果down掉的是master节点，则只能以slave的身份重回集群。

添加node信息：

add datanode slave db1 (host=adb01,port=15011,path='/data/adb/db1');
rewind datanode slave db1;
复制

如果down掉的是slave节点，则直接以原来的身份进行启动即可。

start datanode slave db1;
复制

gtm节点宕机

gtm节点所在主机宕机后，后台进程会自动切换到备节点。

在主机恢复后，需要将down掉的节点重新以slave的身份添加到集群。

add gtm slave gtm_2 for gtm_1 (host=adb03,port=7329,path='/data/adb/gtm');
clean gtm slave gtm_2;
append gtm slave gtm_2;
复制

adbmgr节点宕机

adbmgr slave节点所在主机宕机后，不影响master的使用，待slave节点恢复后，启动即可：mgr_start。

adbmgr master节点所在主机宕机,keepalived会自动将slave节点提升为master，并将vip接管到slave主机上。

在adbmgr master节点恢复后，重新连接当前主节点做一个备份，执行：

mv /data/adb/mgr /data/adb/mgr_bak
adb_basebackup -h 192.168.1.20 -p 6433 -U adb -D /data/adb/mgr -Xs -Fp -R
chmod 700 /data/adb/mgr
mgr_ctl start -D /data/adb/mgr
# IP、port、dir均替换为实际值
复制

重新启动keepalived：

修改keepalived.conf (/etc/keepalived/keepalived.conf)

当前主节点的priority 修改为100，

当前备节点的priority 修改为98.

按照先主后备的顺序重启keepalived：

service keepalived restart

观察系统日志。

最后修改时间：2023-02-28 10:53:48

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者

文章被以下合辑收录

AntDB 亚信数据库（共172篇）

高性能、高可用的分布式关系型数据库

TA的专栏

AntDB 亚信数据库

收录172篇内容

coordinator 节点宕机
datanode节点宕机后恢复
gtm节点宕机
adbmgr节点宕机