暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

DBA不会迁移? 数据同步从了解DataX开始!

kk的DBA随笔 2024-11-18
18

数据同步框架 DataX

DataX 本身作为离线数据同步框架, 采用 Framework+ plugin 架构构建。将数据源读取和写入抽象成为 Reader/ Writer 插件, 纳入到整个同步框架中。

Reader: Reader 为数据采集模块, 负责采集数据源的数据, 将数据发送给 Framework。

Writer: Writer 为数据写入模块, 负责不断向 Framework 取数据, 并将数据写入到目的端。Framework: Framework 用于连接 reader 和 writer, 作为两者的数据伎输通道, 并处理缓冲, 流控, 并发数据转换等核心技术问题

安装与配置:

1. 安装 JDK

  1. wget --no-check-certificate --no-cookies --header "Cookie: oraclelicense=accept-securebackup-cookie" http://download.oracle.com/otn-pub/java/jdk/8u131-b11/d54c1d3a095b4ff2b6607d096fa80163/jdk-8u131-linux-x64.rpm

复制

2. 解压 JDK

  1. rpm -ivh jdk-8u131-linux-x64.rpm

复制

3. 查看 JDK 版本

4. 上传 dataX 文件

文件下载链接: https://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

5. 解压 dataX

  1. tar zxf datax.tar.gz -C /usr/local/

复制

6. 删除隐藏文件

  1. rm -rf /usr/local/datax/plugin/*/._*

复制

7. 验证运行

  1. cd /usr/local/datax/bin/


  2. python datax.py ../job/job.json

复制

dataX 目录结构简介:

content: 配置读和写插件

      reader: 配置迹插件

           name: 插件名称

           parameter: 插件参数

              encoding: 字符集编码

     writer: 配置写插件

setting: 配置任务参数

      speed: 配置速度相关参数

         channel: 配置线程并发数

         errorLimit: 配置脏数据容忍度 (记录数或比例

DataX 配置文件——CSV

txtfilereader:

  1. 支持且仅支持读取 TXT 的文件, 且要求 TXT 中 shema 为一张二维表

  2. 支持类 CSV 格式文件, 自定义分隔符。

  3. 支持多种类型数据读取 (使用 String 表示), 支持列裁剪, 支持列常量

  4. 支持递归读取、支持文件名过滤

  5. 支持文本压缩, 现有压缩格式为 zip、gzip、bzip2

  6. 多个 File 可以支持并发读取

txtfilewriter:

  1. 支持且仅支持写入 TXT 的文件, 且要求 TXT 中 shema 为一张二维表 ·

  2. 支持类 CSV 格式文件, 自定义分隔符。

  3. 支持文本压缩, 现有压缩格式为 gzip、bzip2

  4. 支持多线程写入, 每个线程写入不同子文件。

DataX-web 部署

下载地址: 百度网盘 请输入提取码,提取码:cpsk

上传到 linux 上并解压

mysql 建库

执行一键安装脚本:

运行 dataX-web:

直接访问网页即可登录系统:

账号密码为 admin  123456

网页页面:


文章转载自kk的DBA随笔,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论