数据同步框架 DataX
DataX 本身作为离线数据同步框架, 采用 Framework+ plugin 架构构建。将数据源读取和写入抽象成为 Reader/ Writer 插件, 纳入到整个同步框架中。
Reader: Reader 为数据采集模块, 负责采集数据源的数据, 将数据发送给 Framework。
Writer: Writer 为数据写入模块, 负责不断向 Framework 取数据, 并将数据写入到目的端。Framework: Framework 用于连接 reader 和 writer, 作为两者的数据伎输通道, 并处理缓冲, 流控, 并发数据转换等核心技术问题
安装与配置:
1. 安装 JDK
wget --no-check-certificate --no-cookies --header "Cookie: oraclelicense=accept-securebackup-cookie" http://download.oracle.com/otn-pub/java/jdk/8u131-b11/d54c1d3a095b4ff2b6607d096fa80163/jdk-8u131-linux-x64.rpm
复制
2. 解压 JDK
rpm -ivh jdk-8u131-linux-x64.rpm
复制
3. 查看 JDK 版本
4. 上传 dataX 文件
文件下载链接: https://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
5. 解压 dataX
tar zxf datax.tar.gz -C /usr/local/
复制
6. 删除隐藏文件
rm -rf /usr/local/datax/plugin/*/._*
复制
7. 验证运行
cd /usr/local/datax/bin/
python datax.py ../job/job.json
复制
dataX 目录结构简介:
content: 配置读和写插件
reader: 配置迹插件
name: 插件名称
parameter: 插件参数
encoding: 字符集编码
writer: 配置写插件
setting: 配置任务参数
speed: 配置速度相关参数
channel: 配置线程并发数
errorLimit: 配置脏数据容忍度 (记录数或比例
DataX 配置文件——CSV
txtfilereader:
支持且仅支持读取 TXT 的文件, 且要求 TXT 中 shema 为一张二维表
支持类 CSV 格式文件, 自定义分隔符。
支持多种类型数据读取 (使用 String 表示), 支持列裁剪, 支持列常量
支持递归读取、支持文件名过滤
支持文本压缩, 现有压缩格式为 zip、gzip、bzip2
多个 File 可以支持并发读取
txtfilewriter:
支持且仅支持写入 TXT 的文件, 且要求 TXT 中 shema 为一张二维表 ·
支持类 CSV 格式文件, 自定义分隔符。
支持文本压缩, 现有压缩格式为 gzip、bzip2
支持多线程写入, 每个线程写入不同子文件。
DataX-web 部署
下载地址: 百度网盘 请输入提取码,提取码:cpsk
上传到 linux 上并解压
mysql 建库
执行一键安装脚本:
运行 dataX-web:
直接访问网页即可登录系统:
账号密码为 admin 123456
网页页面: