复制作为MySQL原生的数据同步功能,在MySQL高可用架构中起着至关重要的作用。本文梳理了在运维本公司MySQL高可用产品UDB的过程中遇到的复制问题,并总结了当复制发生异常时,排查复制异常的方法。
错误排查
01
收集复制信息
在复制发生异常时,我们首先要收集复制相关的信息以及错误相关的信息,主要通过如下手段收集。
1.查看show slave status
执行命令"show slave status"查看复制相关信息。主要关注以下几条信息:
Master_Log_File: mysql-bin.000063
Read_Master_Log_Pos: 282657539复制
IO线程读取到的主库的binlog文件名和该binlog中的位置。这两个字段代表复制过程中binlog由主库传输到备库的进度。
Relay_Log_File: mysql-relay.000002
Relay_Log_Pos: 313885复制
SQL线程执行到的relay log的文件名和该relay log中的位置。
Relay_Master_Log_File: mysql-bin.000002
Exec_Master_Log_Pos: 316585复制
SQL线程执行到的relay log对应的主库中的binlog文件名和该binlog的位置。这四个字段代表复制过程中,主库的数据在备库上重放的进度。
Slave_IO_Running: Yes
Slave_SQL_Running: No复制
当前发生问题的是哪个线程,IO线程或者时SQL线程。
Retrieved_Gtid_Set: ed7c5ee4-762d-11e6-ab9e-6c92bf24c36a:14-3920163
Executed_Gtid_Set: 04ffb4f5-762e-11e6-81e4-6c92bf26c5c2:1复制
这两个字段在开启GTID后才有意义。分别代表IO线程接收到的binlog中的事务对应的GTID和SQL线程执行过的事务对应的GTID。
这里的GTID不会因为复制而发生改变,即主库的GTID对应的事务一定是主库执行过之后,通过复制发送过来的。备库的GTID对应的事务一定是备库执行的。
Last_Errno/Last_IO_Errno/Last_SQL_Errno
Laset_Error/Last_IO_Error/Last_SQL_Error复制
IO/SQL线程发生的错误的相关描述。
2.查看错误日志
错误日志记录了MySQL发生的错误信息,即复制的错误信息,同时也会记录复制的开始和停止的相关信息,记录位置可以通过如下方式查看:
在error log中,主要关注如下的信息:
>>开始复制(start slave)
在从库启动复制时,error log中会记录复制起始位置,包括IO线程读取主库端binlog的起始位置和SQL线程执行的relay log的起始位置。同时error log中还会记录开始复制的具体时间。
2017-04-17T14:47:19.691088Z 7 [Note] Slave I/O thread for channel '': connected to master 'repl@192.168.150.21:30001',replication started in log 'binlog001.000002' at position 194
2017-04-17T14:47:19.693377Z 8 [Note] Slave SQL thread for channel '' initialized, starting replication in log 'binlog001.000002' at position 194, relay log './relaylog002.000217' position: 407复制
>>停止复制(stop slave)
在从库停止复制时,error log会记录IO线程停止时读取到的主库的binlog的位置,以及停止复制的时间。
2017-04-18T03:05:52.920750Z 14 [Note] Error reading relay log event for channel '': slave SQL thread was killed
2017-04-18T03:05:52.922007Z 13 [Note] Slave I/O thread killed while reading event for channel ''
2017-04-18T03:05:52.922041Z 13 [Note] Slave I/O thread exiting for channel '', read up to log 'binlog001.000002', position 443复制
>>复制错误信息
复制错误信息的描述会在 show slave status 中的last_error中展现,但是如果错误信息较长的话(尤其是在多线程复制的情况下),show slave status并不能完全的显示错误的全部信息,需要查看错误日志才能查看到完整的错误信息。比如:
Last_Errno: 1007
Last_Error: Coordinator stopped because there were error(s) in the worker(s). The most recent failure being: Worker 0 failed executing transaction '0c1b77a7-c113-11e6-9bd6-d4ae52a34783:4' at master log binlog001.000002, end_log_pos 605. See error log and/or performance_schema.replication_applier_status_by_worker table for more details about this failure or others, if any.
Skip_Counter: 0复制
上述错误信息并不是一个完整的错误信息描述,可以在error log中看到更完成的信息描述,以及发生错误的时间。
2017-04-18T03:19:00.037806Z 23 [ERROR] Slave SQL for channel '': Worker 0 failed executing transaction '0c1b77a7-c113-11e6-9bd6-d4ae52a34783:4' at master log binlog001.000002, end_log_pos 605; Error 'Can't create database 'mydb3'; database exists' on query. Default database: 'mydb3'. Query: 'create database mydb3', Error_code: 1007
复制
3.查看二进制日志文件
这里的二进制日志文件包括主库的binlog、从库的relay log、从库的binlog:主库的binlog是指主库执行过的事务记录的binlog日志;从库的relay log是指从库接收到的主库的binlog日志;从库的binlog是指从库SQL线程复现relay log后记录的日志(log-slave-updates开启)以及从库执行过的事务记录的binlog日志。
二进制日志文件中记录的日志是以event为单位进行记录,比如一个DML语句通常由4-5个event组成,一个DDL语句通常由2个event组成。二进制日志文件可以通过命令‘show binlog events’或者工具mysqlbinlog来将binlog日志转换为可识别的格式。
show binlog events格式如下:
上图显示的为ROW格式的binlog中记录的内容,其中包含了一个DML语句和一条DDL语句。DML语句包含了GTID、QUERY、TABLE_MAP、WRITE_ROW、XID五个event,DDL语句包含了GTID、QUERY两个event。
mysqlbinlog工具同样可以解析binlog,提供与show binlog event类似的event信息,以其中一个event为例来说明:
#170417 23:18:37 server id 30001 end_log_pos 412 CRC32 0x818b4058 Write_rows: table id 110 flags: STMT_END_F
BINLOG '
zdz0WBMxdQAALQAAAHQBAAAAAG4AAAAAAAEABG15ZGIAAkkxAAEDAAF0sqv/
zdz0WB4xdQAAKAAAAJwBAAAAAG4AAAAAAAEAAgAB//4KGgAAWECLgQ==
'/*!*/;
### INSERT INTO `mydb`.`I1`
### SET
### @1=6666
# at 412复制
Event的时间:
为主库执行事务的时间,无论从库的relay log和binlog,时间均为主库执行事务的时间。
Event的server_id:
记录的是执行该事务的数据库的server_id,可以用来区分这条事务是主库还是从库执行的。
Event 的end_log_pos:
从库的relay log中的end_log_pos为对应的主库中的binlog的该event的真实文件位置;
主库和从库的binlog中的end_log_pos为该binlog的文件真实位置。
EVENT的at xxx:
at xxx代表该event在文件中的真实位置。
对于以上的二进制日志文件的内容,我们需要关注的信息包括:
1.Previous_gtids events记录了当前binlog之前执行过的所有的gtid信息,用来定位具体的gtid;
2.GTID event中对应的GTID,与事务是一一对应的,表名该事务是由主库执行还是由重库执行的;
3.当错误发生时,事务执行的时间,事务的执行具体语句;
4.主库执行数据库操作后,将相关日志记录到主库的binlog中。备库的IO线程接收到主库传输的binlog日志后,将这些日志记录到relay log中,如果备库开启了log_slave_updates选项,那么SQL线程在重放relay log的过程中,会记录相关binlog日志。这三个二进制文件日志,执行内容上应该是相同的。
4.查看其他变量
查看其他复制相关的系统变量或者状态,如:执行“show variables like‘gtid_mode’”查看gtid是否开启;执行“show status like ‘Rpl_semi_sync_master_status’”查看半同步复制的状态;这里不再一一列举。
02
排查错误
在收集到以上复制信息后,主要通过如下手段排查复制错误:
1.查看show slave status
查看发生错误的是哪个线程(IO线程或者SQL线程),查看错误原因:
如果是IO线程发生错误,记录发生错误时接收到的binlog的文件名和位置(如果开启了GTID则记录GTID);
如果是SQL线程发生错误,记录发生错误时执行到的relay log的文件名和位置(如果开启了GTID则记录GTID)。
2.查看错误日志
进一步确认发生错误的原因,部分原因只会记录在错误日志中,不会在show slave status中展示。比如空间不足导致IO线程出错、比如网络中断导致IO线程异常等等。查看是否是由于其他用户正常关闭复制或者kill复制相关的线程导致复制不可用。
查看发生错误时,是否为刚刚启动复制、发生错误的语句是否为第一条复制执行的语句。如果为第一条语句,则需要考虑是否由于搭建复制错误的原因导致复制异常,是否由于意外宕机等其他因素导致复制相关二进制日志文件不正确。
对比主库和备库的错误日志,查看是否均发生了同样的复制错误,是否主库做了特殊的错误处理。
3.对比二进制日志文件
对比备库正在接收的binlog与主库正在执行的binlog是否存在冲突(备库接收的binlog的文件和位置要大于主库执行的)。
如果开启了GTID,查看备库是否本身执行了数据库操作产生了GTID,查看备库执行过的GTID是否要多于主库,备库是否执行过其他主机的GTID。
根据发生错误时的binlog的文件和位置(或者GTID),解析主库和备库的二进制文件,对比相同的文件和位置(或者相同的GTID)时日志中记录的操作是否相同;查看备库的二进制文件,备库是否执行过与主库冲突的操作。
常见复制错误原因及分析过程
在收集到上述复制相关信息和错误信息后,我们需要根据实际的错误信息进行分析,这里罗列了几种常见的复制错误,我们可以通过部分或者全部在上述章节收集的相关信息,分析出复制错误发生原因。
01
从库执行语句与主库冲突
1.错误原因
从库执行DML语句或者DDL语句后,主库和从库会出现数据不一致的情况。从而导致主库执行的语句在从库没有办法正常执行。
2.错误信息
由于从库执行与主库冲突的语句而导致复制错误,常见的错误信息如下:
创建库或者表失败:
017-04-18T07:52:40.440723Z 6 [ERROR] Slave SQL for channel '': Worker 0 failed executing transaction '0c1b77a7-c113-11e6-9bd6-d4ae52a34783:2' at master log binlog001.000001, end_log_pos 493; Error 'Can't create database 'mydb4'; database exists' on query. Default database: 'mydb4'. Query: 'create database mydb4', Error_code: 1007
复制
插入语句主键冲突:
2017-04-18T07:57:35.975310Z 10 [ERROR] Slave SQL for channel '': Worker 0 failed executing transaction '0c1b77a7-c113-11e6-9bd6-d4ae52a34783:1' at master log binlog001.000001, end_log_pos 378; Could not execute Write_rows event on table mydb.test; Duplicate entry '10' for key 'PRIMARY', Error_code: 1062; handler error HA_ERR_FOUND_DUPP_KEY; the event's master log FIRST, end_log_pos 378, Error_code: 1062
复制
删除语句找不到对应的语句:
[ERROR] Slave SQL for channel '': Worker 0 failed executing transaction '0c1b77a7-c113-11e6-9bd6-d4ae52a34783:1' at master log binlog001.000001, end_log_pos 506; Could not execute Delete_rows event on table mydb.I1; Can't find record in 'I1', Error_code: 1032; handler error HA_ERR_END_OF_FILE; the event's master log FIRST, end_log_pos 506, Error_code: 1032
复制
由于这是比较常见的原因,所有导致主从冲突的操作均会导致复制出错,这里不再一一列举。
3.原因分析过程
这里以由于数据库存在而导致创建数据库出错为例来分析原因。
>>查看error log
Error log中显示的详细错误信息如下:
2017-04-18T08:22:26.885713Z 16 [ERROR] Slave SQL for channel '': Worker 0 failed executing transaction '0c1b77a7-c113-11e6-9bd6-d4ae52a34783:6' at master log binlog001.000001, end_log_pos 1710; Error 'Can't create database 'mydb10'; database exists' on query. Default database: 'mydb10'. Query: 'create database mydb10', Error_code: 1007
复制
显示在执行GTID 0c1b77a7-c113-11e6-9bd6-d4ae52a34783:6时失败。错误原因为数据库已经存在,无法创建。
>>查看show slave status
当错误发生后,查看show slave status显示的信息时,会发现如下信息:
Master_UUID: 0c1b77a7-c113-11e6-9bd6-d4ae52a34783
Retrieved_Gtid_Set: 0c1b77a7-c113-11e6-9bd6-d4ae52a34783:1-5
Executed_Gtid_Set: 0c1b77a7-c113-11e6-9bd6-d4ae52a34783:1-5,
3a169e6c-f1d0-11e6-bb30-d4ae52a34783:1复制
在Executed_Gtid_Set显示的信息中,除了Master的UUID对应的GTID外,还存在另外一个GTID,我们可以查看从库的GTID,执行如下语句:
发现另外的GTID是由从库执行而产生的的。
>>查看从库binlog日志
从库binlog日志记录的是SQL线程复现的主机的binlog信息或者时从库本身执行的事务的binlog日志。这些事务是可以通过server_id或者GTID来区分。这里以创建数据库失败为例,在从库binlog中,查找3a169e6c-f1d0-11e6-bb30-d4ae52a34783:1对应的事务,发现如下信息:
#170418 16:22:15 server id 30002 end_log_pos 1791 CRC32 0xfa89e69a GTID last_committed=6 sequence_number=7
SET @@SESSION.GTID_NEXT= '3a169e6c-f1d0-11e6-bb30-d4ae52a34783:1'/*!*/;
# at 1791
……
create database mydb10复制
>>查看从库relay log日志
从库relay log日志记录的是IO线程从主库接收到的binlog日志信息,我们查看执行失败的GTID对应的事务信息:
#170418 16:22:26 server id 30001 end_log_pos 1610 CRC32 0x27c8228f GTID last_committed=5 sequence_number=6
SET @@SESSION.GTID_NEXT= '0c1b77a7-c113-11e6-9bd6-d4ae52a34783:6'/*!*/;
# at 519
……
create database mydb10
/*!*/;复制
最终可以确认是由于从库执行了创建数据库语句后,SQL线程再次执行创建数据库的语句时发生复制失败的情况。
02
主库的binlog丢失
1.错误原因
复制过程中,由于从库需要读取的主库的binlog丢失,从而导致复制发生异常。导致主库binlog丢失的主要原因如下:主库执行reset master命令;主库执行purge binary/master logs命令;主库设置expire_logs_days,自动删除了binlog;主库的binlog被误删除。
2.错误信息
如果发生找不到主机binlog的情况,从库error log会报出如下错误:
2017-04-18T09:01:42.894612Z 17 [ERROR] Slave I/O for channel '': Got fatal error 1236 from master when reading data from binary log: 'could not find next log; the first event '' at 4, the last event read from './binlog001.000002' at 154, the last byte read from './binlog001.000002' at 154.', Error_code: 1236
复制
3.原因分析过程
>>查看error log
Error log中显示的详细错误信息如下:
2017-04-18T09:01:42.894612Z 17 [ERROR] Slave I/O for channel '': Got fatal error 1236 from master when reading data from binary log: 'could not find next log; the first event '' at 4, the last event read from './binlog001.000002' at 154, the last byte read from './binlog001.000002' at 154.', Error_code: 1236
复制
错误信息显示无法找到对应的binlog文件。
>>查看主库binlog日志
查看主库的binlog日志文件列表,可能会发现主库的binlog变成重新开始记录:
-rw-r----- 1 songlei.wang songlei.wang 449 Apr 18 17:01 binlog001.000001
-rw-r----- 1 songlei.wang songlei.wang 19 Apr 18 17:01 binlog_index001.index复制
或者需要复制的binlog已经被删除:
-rw-r----- 1 songlei.wang songlei.wang 241 Apr 18 17:12 binlog001.000006
-rw-r----- 1 songlei.wang songlei.wang 1716 Apr 18 17:12 binlog001.000007
-rw-r----- 1 songlei.wang songlei.wang 194 Apr 18 17:12 binlog001.000008
-rw-r----- 1 songlei.wang songlei.wang 57 Apr 18 17:12 binlog_index001.index复制
如果binlog重新开始记录,通常是由于主库执行了resetmaster命令,导致所有的binlog被删除;如果binlog任然在继续记录,只是从库需要的binlog被删除,通常是由于主库手动执行了purge binary logs命令,或者日志的保留时间超过了expire_logs_days设置的时间。
03
从库没有执行主库复制的语句(mysql-5.6)
由于GTID的特性,SQL线程不会去执行相同的GTID对应的事务,即如果SQL线程发现从relay log中读取到的事务对应的GTID已经存在于从库的GTID_EXECUTED中,那么SQL线程便不会存在。
1. 错误原因
复制过程中,用于主库执行的事务对应的GTID已经存在于从库的GTID_EXECUTED中,那么从库便不会执行这些事务,从而导致主库和从库的数据不一致。通常有如下情况:
主机执行了reset master(从库当前读取主机的第一个binlog,并不会因为reset master而导致找不到文件);重做主从,从库没有清除从库的binlog。
2.错误信息
在从库忽略主机执行的事务的过程中,从库复制不会报出任何错误,所以这种复制的异常容易被忽略,没有办法及时的发现。
由于主库和从库的数据库不一致,后续的DML和DDL操作可能会发生执行失败的错误。
3.原因分析过程
这里我们以插入语句找不到对应的表为例。
>>查看error log
Error log中记录错误信息:
2017-04-18 20:39:01 682 [ERROR] Slave SQL: Error 'Table 'mydb.mytbl2' doesn't exist' on query. Default database: 'mydb'. Query: 'insert into mydb.mytbl4 values (1)', Error_code: 1146
复制
>>查看show slave status
show slave status显示的信息全部正常,无从库执行事务的binlog产生。这里不排除从库关闭binlog执行drop table操作的可能。
>>查看表
分别在主机和从库执行命令show create table mydb.mytbl4,发现从库上并未不存在mydb.mytbl4。
>>解析binlog日志
解析主机binlog日志,查看建表的事务日志:
#170418 20:50:47 server id 30061 end_log_pos 199 CRC32 0xaaa00818 GTID [commit=yes]
SET @@SESSION.GTID_NEXT= '1ac5f388-0dea-11e7-b2ec-d4ae52a34783:1'/*!*/;
# at 199
#170418 20:50:47 server id 30061 end_log_pos 319 CRC32 0x06f5789f Query thread_id=3 exec_time=0 error_code=0
……
create table if not exists mydb.mytbl4 (A int)复制
解析从库的binlog日志,查找是否存在建表的事务日志:
#170418 20:49:49 server id 30061 end_log_pos 199 CRC32 0x3051fade GTID [commit=yes]
SET @@SESSION.GTID_NEXT= '1ac5f388-0dea-11e7-b2ec-d4ae52a34783:1'/*!*/;
# at 199
#170418 20:49:49 server id 30061 end_log_pos 278 CRC32 0x7156a1c9 Query thread_id=3 exec_time=40 error_code=0
……
BEGIN
/*!*/;
# at 278
#170418 20:49:49 server id 30061 end_log_pos 385 CRC32 0x25560e04 Query thread_id=3 exec_time=40 error_code=0
use `mydb`/*!*/;
SET TIMESTAMP=1492519789/*!*/;
insert into mydb.mytbl values (1)
/*!*/;
……复制
这时我们发现对于相同的GTID,从库和主机执行的语句是不相同的。通过上述分析,我们推断是从库并没有执行建表语句,从而导致主库数据不一致。
4.说明
Got fatal error 1236 from master when reading data from binary log: 'Slave has more GTIDs than the master has, using the master's SERVER_UUID. This may indicate that the end of the binary log was truncated or that the last binary log file was lost, e.g., after a power or disk failure when sync_binlog != 1. The master may or may not have rolled back transactions that were already replica', Error_code: 1236
复制
这种情况的复制错误只会发生在MySQL-5.6版本,在MySQL-5.7版本会在复制时有更严格的校验,如果主机发送GTID要少于从库的GTID,那么会报告出如下的错误:
Got fatal error 1236 from master when reading data from binary log: 'Slave has more GTIDs than the master has, using the master's SERVER_UUID. This may indicate that the end of the binary log was truncated or that the last binary log file was lost, e.g., after a power or disk failure when sync_binlog != 1. The master may or may not have rolled back transactions that were already replica', Error_code: 1236
复制
04
主库执行了不进行复制的语句
1. 错误原因
主库上执行的操作并不会写入binlog。这里不考虑主库主动关闭binlog的情况。
2. 错误信息
由于主库和从库的数据不一致,从而导致主库执行的操作复制到从库后,发生从库执行失败的情况。如:
创建FEDERATED引擎的表失败:
2017-01-24T08:04:31.682038Z 3 [ERROR] Slave SQL for channel '': Worker 0 failed executing transaction '887ca716-e202-11e6-8a82-52540086ae59:7' at master log mysql-bin.000004, end_log_pos 906; Error 'server name: 's' doesn't exist!' on query. Default database: 'mydb'. Query: 'CREATE TABLE `mytbl` (
`idaction` int(10) unsigned NOT NULL AUTO_INCREMENT,
) ENGINE=FEDERATED DEFAULT CHARSET=utf8 CONNECTION='s'', Error_code: 143复制
3.原因分析过程
这里以使用CONNECTION创建FEDERATED引擎的表为例。
>> 查看error log
Error log中记录错误信息:
2017-01-24T08:04:31.682038Z 3 [ERROR] Slave SQL for channel '': Worker 0 failed executing transaction '887ca716-e202-11e6-8a82-52540086ae59:7' at master log mysql-bin.000004, end_log_pos 906; Error 'server name: 's' doesn't exist!' on query.
复制
>>查看主库和从库的server表
主库中server表中存在名字为s的记录:
从库中不存在名字为s的记录:
>>查看CREATE SERVER文档说明
文档中记录,create server语句并不会记录到binlog中。所以导致了主库和从库的数据不一致。复制无法正常进行。
对于不进入binlog的操作,需要主库和从库同时执行,以防发生主库和从库不一致的情况。
05
从库重复执行relay log的语句
(非GTID,非多线程复制)
当变量relay_log_info_repository设置为FILE时,从库的SQL线程每次执行完一个事务后,会把对应的文件和位置信息更新到文件relay_log.info中。用于在从库重启时,SQL能够从正确的位置继续进行复制。
1.错误原因
如果物理机发生宕机或者从库发生意外中断,那么可能发生SQL已经执行过了某一个relay log中的事务,但是这个事务对应文件和位置信息并没有更新到relay_log.info中的情况。在从库发生重启时,会将执行过的事务重新再次执行。
2.错误信息
重复执行的事务包括任何记录到relay log中的事务,可能出现的错误信息包括:
创建库或者表失败:
017-04-18T07:52:40.440723Z 6 [ERROR] Slave SQL for channel '': Worker 0 failed executing transaction '0c1b77a7-c113-11e6-9bd6-d4ae52a34783:2' at master log binlog001.000001, end_log_pos 493; Error 'Can't create database 'mydb4'; database exists' on query. Default database: 'mydb4'. Query: 'create database mydb4', Error_code: 1007
复制
插入语句主键冲突:
2017-04-18T07:57:35.975310Z 10 [ERROR] Slave SQL for channel '': Worker 0 failed executing transaction '0c1b77a7-c113-11e6-9bd6-d4ae52a34783:1' at master log binlog001.000001, end_log_pos 378; Could not execute Write_rows event on table mydb.test; Duplicate entry '10' for key 'PRIMARY', Error_code: 1062; handler error HA_ERR_FOUND_DUPP_KEY; the event's master log FIRST, end_log_pos 378, Error_code: 1062
复制
删除语句找不到对应的语句:
[ERROR] Slave SQL for channel '': Worker 0 failed executing transaction '0c1b77a7-c113-11e6-9bd6-d4ae52a34783:1' at master log binlog001.000001, end_log_pos 506; Could not execute Delete_rows event on table mydb.I1; Can't find record in 'I1', Error_code: 1032; handler error HA_ERR_END_OF_FILE; the event's master log FIRST, end_log_pos 506, Error_code: 1032
复制
由于各种类型的事务均可能执行,这里不再一一列举。
3.原因分析过程
这里以插入语句主键冲突为例。
>>查看error log
Error log中记录以下报错信息:
2017-04-19T03:02:15.448429Z 4 [Note] Slave SQL thread for channel '' initialized, starting replication in log 'binlog001.000001' at position 403, relay log './relaylog002.000002' position: 616
2017-04-19T03:02:15.459468Z 4 [ERROR] Slave SQL for channel '': Could not execute Write_rows event on table mydb.k2; Duplicate entry '101' for key 'PRIMARY', Error_code: 1062; handler error HA_ERR_FOUND_DUPP_KEY; the event's master log binlog001.000001, end_log_pos 621, Error_code: 1062
2017-04-19T03:02:15.459526Z 4 [Warning] Slave: Duplicate entry '101' for key 'PRIMARY' Error_code: 1062复制
可以看到是SQL线程在启动后执行的第一个事务就发生主键冲突的错误。
>>查看show slave status
show slave status显示的信息全部正常,无从库执行事务的binlog产生。
>>查看表mydb.k2
表中已经存在了这条记录。
>>查看从库的relay log和binlog
查看从库的relay log,从复制的起始位置./relaylog002.000002:616查看:
#170419 11:00:22 server id 30001 end_log_pos 403 CRC32 0x0ef99927 Xid = 7395
COMMIT/*!*/;
# at 616 relay log的文件位置
#170419 11:00:59 server id 30001 end_log_pos 468 CRC32 0xbd3fd6d7 Anonymous_GTID last_committed=1 sequence_number=2 对应主机的事务执行的时间
SET @@SESSION.GTID_NEXT= 'ANONYMOUS'/*!*/;
# at 681
#170419 11:00:59 server id 30001 end_log_pos 536 CRC32 0x484841bd Query thread_id=553 exec_time=0 error_code=0
SET TIMESTAMP=1492570859/*!*/;
BEGIN
/*!*/;
# at 749
#170419 11:00:59 server id 30001 end_log_pos 581 CRC32 0x9fd66b9e Table_map: `mydb`.`k2` mapped to number 114
# at 794
#170419 11:00:59 server id 30001 end_log_pos 621 CRC32 0x4151da88 Write_rows: table id 114 flags: STMT_END_F
BINLOG '
69L2WBMxdQAALQAAAEUCAAAAAHIAAAAAAAEABG15ZGIAAmsyAAEDAACea9af
69L2WB4xdQAAKAAAAG0CAAAAAHIAAAAAAAEAAgAB//5lAAAAiNpRQQ==
'/*!*/;
### INSERT INTO `mydb`.`k2`
### SET
### @1=101
# at 834
#170419 11:00:59 server id 30001 end_log_pos 652 CRC32 0xf876844e Xid = 7396
COMMIT/*!*/;复制
查看从库的binlog:
#170419 11:00:59 server id 30001 end_log_pos 463 CRC32 0x6ede3a0d Anonymous_GTID last_committed=1 sequence_number=2
SET @@SESSION.GTID_NEXT= 'ANONYMOUS'/*!*/;
# at 463
#170419 11:00:59 server id 30001 end_log_pos 526 CRC32 0x5fac2d32 Query thread_id=553 exec_time=0 error_code=0
SET TIMESTAMP=1492570859/*!*/;
BEGIN
/*!*/;
# at 526
#170419 11:00:59 server id 30001 end_log_pos 571 CRC32 0xb51f8ec9 Table_map: `mydb`.`k2` mapped to number 108
# at 571
#170419 11:00:59 server id 30001 end_log_pos 611 CRC32 0xfa578a3f Write_rows: table id 108 flags: STMT_END_F
BINLOG '
69L2WBMxdQAALQAAADsCAAAAAGwAAAAAAAEABG15ZGIAAmsyAAEDAADJjh+1
69L2WB4xdQAAKAAAAGMCAAAAAGwAAAAAAAEAAgAB//5lAAAAP4pX+g==
'/*!*/;
### INSERT INTO `mydb`.`k2`
### SET
### @1=101
# at 611
#170419 11:00:59 server id 30001 end_log_pos 642 CRC32 0xc3a619a0 Xid = 12
COMMIT/*!*/;复制
通过分析上述binlog内容,relay log中并没有记录相同的insert语句,而从库的binlog显示已经执行过该语句,当从库重启后,试图再次执行相同的insert语句,从而导致插入语句的主键冲突。
4.说明
如果复制使用GTID,那么GTID的特性会使从库不执行相同的语句;如果复制使用多线程复制,那么mts_recovery会修复这个问题;只有在非多线程复制、非GTID复制的情况下才可能出现这个错误。
版本和配置
总体来说,版本和配置的不同,只是会造成各种信息的显示格式不同,并不会对上述的方法造成过多的影响。
01
版本
上述信息收集和分析的举例均是在MySQL-5.7版本上进行的举例,不同的大版本在信息的内容或者信息的存放方式上可能存在一定的差异。
MySQL-5.6版本与MySQL-5.7版本在复制相关信息上存在以下差异:
1.日志:
在MySQL-5.6在停止复制时,error log会有错误的信息记录:
2017-04-18 17:32:46 682 [Note] Error reading relay log event: slave SQL thread was killed
2017-04-18 17:32:46 682 [ERROR] Error reading packet from server: Lost connection to MySQL server during query ( server_errno=2013)
2017-04-18 17:32:46 682 [Note] Slave I/O thread killed while reading event
2017-04-18 17:32:46 682 [Note] Slave I/O thread exiting, read up to log 'b5620.000004', position 151复制
2.GTID:
MySQL-5.6的gtid_executed以global system variables的方式的展现,MySQL-5.7是以mysql.gtid_executed表的方式展现。
3.BINLOG:
MySQL-5.6版本在使用自增ID时,会使用如下event来记录自增ID。
02
配置
主要体现差异的配置包括gtid_mode和binlog_format。
1.gtid_mode
当gtid开启时,gtid作为判断事务是由谁执行,是否执行过、事务接收和执行进度的判断标准。同时可以通过show slave status可以直观的看出gtid的接收、执行的情况。
当gtid关闭时,file和pos作为接收和执行的判断标准,server_id作为事务由谁执行的标准。但是事务对应的所有的server_id并没有完全的展现出来,所以对于我们排查问题,造成一定的困难。
2. binlog_format
binlog_format影响的是记录到binlog中的日志内容的格式,以同一条INSERT语句为例,statement格式记录到binlog中的格式如下(只显示差异部分):
#170418 17:47:06 server id 30001 end_log_pos 730 CRC32 0xdaf9a789 Query thread_id=154 exec_time=0 error_code=0
SET TIMESTAMP=1492508826/*!*/;
insert into mydb.m1 values (13)
/*!*/;复制
row格式记录到binlog中的格式如下:
#170418 17:46:25 server id 30001 end_log_pos 376 CRC32 0xcfdad7cd Table_map: `mydb`.`m1` mapped to number 114
# at 376
#170418 17:46:25 server id 30001 end_log_pos 416 CRC32 0xed08eabe Write_rows: table id 114 flags: STMT_END_F
BINLOG '
ceD1WBMxdQAALQAAAHgBAAAAAHIAAAAAAAEABG15ZGIAAm0xAAEDAAHN19rP
ceD1WB4xdQAAKAAAAKABAAAAAHIAAAAAAAEAAgAB//4NAAAAvuoI7Q==
'/*!*/;
### INSERT INTO `mydb`.`m1`
### SET
### @1=13
# at 416复制
总结
如果复制发生了错误,通过收集上述的复制相关信息和错误相关信息,分析这些信息中与正常复制异常的地方,便可为排查复制错误提供更多的可以用来排场异常的信息。
当然复制的错误的是多种多样的,并不是所有的错误都可以排查到具体的产生原因。很多复制错误是较难或者无法进行排查的,比如主库或者从库的binlog日志文件已经丢失、比如关闭binlog后执行某些操作导致复制不一致、再比如某些内核BUG导致MySQL的复制逻辑本身发生了异常等等。
— END —
更
多
精
彩
请猛戳右边二维码
公众号ID
ucloud_tech