


本期内容
DataX在数据迁移中的应用
在做系统重构时,我们无法避免数据迁移,对于可以直接复制的数据,我们通常会考虑性能稳定的DataX作为迁移工具。
DataX 作为阿里开源的一个异构数据源离线同步工具,能够支持各种异构数据源之间稳定高效的数据同步功能。
本期就来跟大家分享一下DataX数据迁移在实践中的应用。
一、准备工作
项目地址:
https://github.com/alibaba/DataX
环境准备:Linux操作系统机器、Java环境(1.8以上,推荐1.8)、python(2或3都可以)
二、安装工具
与数据迁移Demo
安装工具
Step1:下载
使用wget工具下载
https://datax-opensource.oss-cn-hangzhou.aliyuncs.com/202210/datax.tar.gz
Step2:解压
使用tar命令解压 tar -zxvf datax.tar.gz
Step3:使用docker命令分别启动
一个MySQL容器和OpenGauss容器
# 启动MySQL容器
# 启动OpenGauss容器
Step4:使用数据库连接工具
连接数据库并创建数据表
# 连接MySQL
# 连接OpenGauss
Step5:在MySQL中生成demo数据
# 创建test数据库
如果数据库中表存在,则删除表:
如果存储过程存在,则删除存储过程:
# 创建MySQL表
# 创建存储过程
# 调用存储过程
# 查询生成数据
Step6:在gauss数据库中创建目标表
Step7:生成任务模板
这里生成数据源为MySQL,写入为postgresql的模板。
修改其中的reader和writer的配置项,将jdbc串以及数据库用户名密码写入。
执行datax.py脚本,开始抽取。
可以观察到记录的条数和源数据库的条数相同,通过SQL查询:
三、使用Datax抽取
移动云上的gauss数据库
根据数据源以及gauss(postgresql)为目标端的模板,写入源端和目标端的参数。
这里,由于移动云网络问题,可能会导致写入速度为0。
所以这里仅为了实验工具可行性,只读取一条数据:
四、Datax工具逻辑说明
整体框架
DataX本身作为离线数据同步框架,采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件,纳入到整个同步框架中。
Reader:Reader为数据采集模块,负责采集数据源的数据,将数据发送给Framework。
Writer: Writer为数据写入模块,负责不断向Framework取数据,并将数据写入到目的端。
Framework:Framework用于连接reader和writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题。
核心模板介绍
DataX完成单个数据同步的作业,我们称之为Job,DataX接受到一个Job之后,将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点,承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。
DataXJob启动后,会根据不同的源端切分策略,将Job切分成多个小的Task(子任务),以便于并发执行。Task便是DataX作业的最小单元,每一个Task都会负责一部分数据的同步工作。
切分多个Task之后,DataX Job会调用Scheduler模块,根据配置的并发数据量,将拆分成的Task重新组合,组装成TaskGroup(任务组)。每一个TaskGroup负责以一定的并发运行完毕分配好的所有Task,默认单个任务组的并发数量为5。
每一个Task都由TaskGroup负责启动,Task启动后,会固定启动Reader—>Channel—>Writer的线程来完成任务同步工作。
DataX作业运行起来之后, Job监控并等待多个TaskGroup模块任务完成,等待所有TaskGroup任务完成后Job成功退出。否则,异常退出,进程退出值非0。
流程调度
DataXJob根据分库分表切分成了100个Task。
根据20个并发,DataX计算共需要分配4个TaskGroup。
4个TaskGroup平分切分好的100个Task,每一个TaskGroup负责以5个并发共计运行25个Task。
数据库类型插件读、写说明
数据库类型插件,实际是使用jdbc来进行数据的读取插入。
可以看到,在数据写入时,实际是通过一条条的SQl来进行插入的。而读取数据的部分,实际也是通过具体的SQL来进行执行的,可以同过MySQL的日志来查看。
所以,实际的使用过程中,可以将配置文件当作一个SQL来进行编写即可。
如对具体字段的去特殊字符操作,可使用replace函数,以及限制只迁移某个时间段的数据,则可以在where条件中,限制具体的业务字段在某个时间段。
同时,任务要求读写的字段应该一致,通过字段的顺序来达到字段映射的作用。
因此在实际使用的过程中,可以构建一些指定字段,如在多表迁移到一张表的情况下,每张表代表的是某一天的数据。
但是字段中并没有时间字段,则可以构建静态值为字段插入到配置中,来达成多表合一时,做到数据的时序性。
五、Datax工具参数说明
Setting
Setting参数设置的是整体的任务执行的一些配置,如启动几个channel来运行,或者限制具体的速度等。如下:
speed参数为设置具体的速度;
Channel为运行的并发数(最好根据运行机器的物理限制配置,最好不超过32);
Byte为字节流(数据大小);
Record为记录流(即条数);
errorLimit参数为容错率;
record为允许的错误条数;
percentage为允许的错误率,即整体的任务在出现错误的条数或者错误率超过预设是进行中断报错;
Reader& writer
这里仅介绍通用的字段,如果需要详细的参数配置可以参考
https://github.com/alibaba/DataX#support-data-channels中的具体文档
# jdbcUrl
· 描述:描述的是到对端数据库的JDBC连接信息,使用JSON的数组描述,并支持一个库填写多个连接地址。
之所以使用JSON数组描述连接信息,是因为阿里集团内部支持多个IP探测,如果配置了多个,PostgresqlReader可以依次探测ip的可连接性,直到选择一个合法的IP。
如果全部连接失败,PostgresqlReader报错。
注意:jdbcUrl必须包含在connection配置单元中。对于阿里集团外部使用情况,JSON数组填写一个JDBC连接即可。
jdbcUrl按照PostgreSQL官方规范,并可以填写连接附件控制信息。
· 必选:是;
· 默认值:无;
# username
· 描述:数据源的用户名;
· 必选:是;
· 默认值:无;
# password
· 描述:数据源指定用户名的密码;
· 必选:是;
· 默认值:无;
# table
· 描述:所选取的需要同步的表。使用JSON的数组描述,因此支持多张表同时抽取。
当配置为多张表时,用户自己需保证多张表是同一schema结构,PostgresqlReader不予检查表是否同一逻辑表。
注意,table必须包含在connection配置单元中。
· 必选:是
· 默认值:无
# colum
· 描述:所配置的表中需要同步的列名集合,使用JSON的数组描述字段信息。用户使用*代表默认使用所有列配置,例如['*']。
支持列裁剪,即列可以挑选部分列进行导出。
支持列换序,即列可以不按照表schema信息进行导出。
支持常量配置,用户需要按照PostgreSQL语法格式:
["id", "'hello'::varchar", "true", "2.5::real", "power(2,3)"] id为普通列名,
'hello'::varchar为字符串常量,true为布尔值,2.5为浮点数, power(2,3)为函数。
注意:column必须用户显示指定同步的列集合,不允许为空!
必选:是;
默认值:无;
# splitPk
· 描述:PostgresqlReader进行数据抽取时,如果指定splitPk,表示用户希望使用splitPk代表的字段进行数据分片。
DataX因此会启动并发任务进行数据同步,这样可以大大提供数据同步的效能。
推荐splitPk用户使用表主键,因为表主键通常情况下比较均匀,因此切分出来的分片也不容易出现数据热点。
目前splitPk仅支持整形数据切分,不支持浮点、字符串型、日期等其他类型。
如果用户指定其他非支持类型,PostgresqlReader将报错!
splitPk设置为空,底层将视作用户不允许对单表进行切分,因此使用单通道进行抽取。
· 必选:否;
· 默认值:空;
# where
· 描述:筛选条件,MysqlReader根据指定的column、table、where条件拼接SQL,并根据这个SQL进行数据抽取。
在实际业务场景中,往往会选择当天的数据进行同步,可以将where条件指定为gmt_create > $bizdate 。
注意:不可以将where条件指定为limit 10,limit不是SQL的合法where子句。
· 必选:否
· 默认值:无
# querySql
where条件可以有效地进行业务增量同步。where条件不配置或者为空,视作全表同步数据。
· 描述:在有些业务场景下,where这一配置项不足以描述所筛选的条件,用户可以通过该配置型来自定义筛选SQL。
当用户配置了这一项之后,DataX系统就会忽略table,column这些配置型,直接使用这个配置项的内容对数据进行筛选。
例如需要进行多表join后同步数据,使用select a,b from table_a join table_b on table_a.id = table_b.id
当用户配置querySql时,PostgresqlReader直接忽略table、column、where条件的配置。
· 必选:否;
· 默认值:无;
# fetchSize
· 描述:该配置项定义了插件和数据库服务器端,每次批量数据获取条数,该值决定了DataX和服务器端的网络交互次数,能够较大的提升数据抽取性能。
注意,该值过大(>2048)可能造成DataX进程OOM。
· 必选:否;
· 默认值:1024;
# session
· 描述: DataX在获取Mysql连接时,执行session指定的SQL语句,修改当前connection session属性
· 必须: 否
· 默认值: 空
# preSql
· 描述:写入数据到目的表前,会先执行这里的标准语句。
如果 Sql 中有你需要操作到的表名称,请使用 @table 表示,这样在实际执行 Sql 语句时,会对变量按照实际表名称进行替换。
比如你的任务是要写入到目的端的100个同构分表(表名称为:datax_00,datax01, ... datax_98,datax_99),并且你希望导入数据前,先对表中数据进行删除操作。
那么你可以这样配置:"preSql":["delete from 表名"],
效果是:在执行到每个表写入数据前,会先执行对应的 delete from 对应表名称。
必选:否;
默认值:无;
# postSql
· 描述:写入数据到目的表后,会执行这里的标准语句。(原理同 preSql );
· 必选:否;
· 默认值:无;
# writeMode
· 描述:控制写入数据到目标表采用 insert into 或者 replace into 或者 ON DUPLICATE KEY UPDATE 语句;
· 必选:是,所有选项:insert/replace/update;
· 默认值:insert;
# batchSize
· 描述:一次性批量提交的记录数大小,该值可以极大减少DataX与Mysql的网络交互次数,并提升整体吞吐量。
但是该值设置过大可能会造成DataX运行进程OOM情况。
· 必选:否;
· 默认值:1024;
综上介绍,我们来看一段配置样例:
今天的分享就到这儿了,希望通过本期全面的介绍后,往后在进行DataX数据迁移的时候,可以参考上述方式,根据实际情况进行操作~!


Datax的数据迁移小技巧
你get到了吗?
如果你有更好的办法或疑问
欢迎加入社群一起讨论哦⬇
本期作者
冯康


更多精彩内容
了解云基地,就现在!
IT技术哪家强
神州数码最在行
行业新星,后起之秀
历史虽不长,但是实 力 强








