本文介绍了在PolarDB MySQL版中执行DDL操作时提示“获取不到MDL锁”的解决方法。
问题现象
在PolarDB MySQL版数据库中执行DDL操作时提示获取不到MDL锁,报错信息如下:
ERROR HY000: Fail to get MDL on replica during DDL synchronize
问题原因
PolarDB MySQL版的只读节点上存在未结束的查询或未提交的事务。
解决方案
提交事务(commit)或回滚事务(rollback)。
您也可以在只读节点上开启polar_slave_work_on_nonblock_mdl_mode参数,防止只读节点上未提交的长事务阻塞DDL操作。具体操作请参见防止只读节点上长事务阻塞DDL操作。
执行DDL操作。
如果操作成功,任务结束。
如果操作失败,继续下一步。
如果您集群中的Polar Performance Schema功能是开启状态,您可以利用Performance Schema查询目标表上MDL锁状态,然后来kill掉只读节点上未提交事务的相关线程。具体操作如下:
说明
您可以执行以下SQL查看集群中的Polar Performance Schema功能是否开启。
SHOW VARIABLES LIKE 'polar_performance_schema';
如果当前只读节点上未提交的事务非常重要,建议不要直接kill掉,请耐心等待此事务结束后,再进行DDL操作。
建议您开启Polar Performance Schema功能。关于如何开启Polar Performance Schema功能的开启状态,请参见操作步骤。
如果kill不掉线程、线程ID不存在或者出现如下报错,请提交工单联系阿里云技术支持进行处理。
ERROR 1094 (HY000): Unknown thread id: xxx
使用Hint语法指定只读节点执行以下SQL查询目标表上MDL锁状态。
/*force_node='pi-bp10k7631d6k3****'*/ select t.PROCESSLIST_ID, m.OBJECT_TYPE, m.OBJECT_SCHEMA, m.OBJECT_NAME, m.LOCK_TYPE, m.LOCK_DURATION, m.LOCK_STATUS from performance_schema.metadata_locks m left join performance_schema.threads t on m.owner_thread_id=t.thread_id;
显示结果如下:
从上图可以看到,当前
test/t
这个表上,有一个大查询或者未提交的事务,持有了LOCK_TYPE
为SHARED_READ
的锁。同时,当前test/t
表上有一个LOCK_TYPE
为EXCLUSIVE
的锁处于PENGING
状态。使用Hint语法指定只读节点执行/*force_node='pi-bp10k7631d6k3****'*/ kill 14
结束掉连接对应的线程即可。如果您集群中的Polar Performance Schema功能是关闭状态,您可以查询
information_schema.innodb_trx
表上MDL锁状态,来确定是否有事务未提交,然后来kill掉对应的线程。具体操作如下:使用Hint语法指定只读节点执行以下SQL查询
information_schema.innodb_trx
表上MDL锁状态。/*force_node='pi-bp10k7631d6k3****'*/ SELECT * from information_schema.innodb_trx\G
大查询导致的DDL执行失败显示结果如下:
从上图可以看到,当前表
t1
上面存在一个大查询,说明当前的连接持有了表t1
的MDL锁。此时,使用Hint语法指定只读节点执行/*force_node='pi-bp10k7631d6k3****'*/ kill 6
结束掉连接对应的trx_mysql_thread_id
线程即可。大事务导致的DDL执行失败显示结果如下:
从上图可以看到,有一个未提交的事务14,由于
trx_query
字段为空,无法准确判断当前事务持有了当前表的MDL锁。此时您可以根据trx_started
字段进行处理,如果trx_started
字段的时间和当前时间的差距很大,大概率是当前事务14持有了MDL锁。此时,使用Hint语法指定只读节点执行/*force_node='pi-bp10k7631d6k3****'*/ kill 14
结束掉连接对应的trx_mysql_thread_id
线程即可。
更多信息
云原生数据库PolarDB中DDL操作的过程如下:
在DDL操作的不同阶段,如果需要变更表结构,则在变更前,主节点先获取MDL锁,然后写入一条Redo日志。
只读节点解析到此Redo日志时,会尝试获取同一个表中的MDL锁。然后有下列两种情况:
获取成功,进入下一步。
获取失败,只读节点反馈给主节点。
主节点等待所有只读节点同步到最新的复制位点。在一定时间内,主节点会判断所有只读节点是否都解析到了此Redo日志以及是否加锁成功。然后有下列两种情况:
所有只读节点同步到最新的复制位点,DDL成功。
某些只读节点未同步到最新的复制位点,回滚DDL并报错。此时报错又分为两种情况:一种是等待同步超时的报错;一种是本文档中加锁失败的报错,而某些只读节点加锁失败的主要原因是只读节点存在未结束的查询或者未提交的事务。