本文主要介绍如何在Lava中实现数据同步,数据平台Lava的安装教程:偶数科技-数据平台Lava安装教程
数据同步功能旨在帮助用户实现两个数据源之间的数据加载,该功能可以灵活的应用于多种业务场景,比如异地数据灾备、查询与报表分流等。根据数据加载的方式分为两种:全量、增量。
OushuDB支持ANSI-SQL,兼容Postgres,所以作为数据源或者目标,理论上支持市场上所有的基于JDBC的数据同步工具,例如Kettle,Informatica。但是,这些数据同步工具并没有利用到OushuDB的高效的特性去做数据同步,OushuDB支持一些更高效的数据同步方式。
1.部署数据同步集群
在使用数据同步服务之前,需要部署数据同步集群,分为以下六个步骤。
1.1选择及创建新集群
点击左侧菜单栏->数据同步->集群,打开集群页面,如果没有部署数据同步集群,则集群列表为空,点击右上角”创建新集群”开启创建集群的导航。
1.2选择HDFS集群
由于数据同步服务依赖于HDFS,所以此处需要指定HDFS 集群。如下图所示,如果平台内没有部署过HDFS集群,您可以右上角的”创建HDFS集群”来创建新的HDFS集群。创建HDFS集群的步骤在OushuDB安装教程的第一步 。勾选您需要的HDFS集群,点击下一步。
1.3选择节点
选择需要部署数据同步服务的节点,可以选择一到多个节点。勾选后,点击下一步。
1.4Postgres连接
输入Postgres的连接信息,数据同步服务需要Postgres来存储业务数据,配置完成后,点击下一步。
1.5GPFDIST连接
输入GPFDIST的端口与目录,数据同步本地文件导入模式需要通过GPFDIST导入。
1.6部署集群
部署数据同步集群,配置完毕后点击下面的”部署”,进入部署页面。部署页面会动态展示部署日志以及部署的进度。
部署成功后会自动跳转到集群列表,列表里有刚部署成功的数据同步集群。状态显示为 Running则代表部署成功
2.监控管理数据同步集群
数据同步集群的监控管理与OushuDB集群的监控管理功能是一样的。请参见_监控管理 OushuDB集群章节。
3.配置数据源
一个完整的数据同步流程中,源和目标是必不可少的。点击左侧菜单栏-> 数据源,您可以编辑添加多个数据源作为数据同步的源或者目标。目前支持Mysql、Postgresql、OracleDB2、SQLServer、HDFS、本地文件作为数据同步的源。
- 添加数据源
点击右上角的”添加数据源”,会弹出编辑窗口,您可以根据需求选择不同的数据源类型,编辑输入连接信息,点击”保存”。保存前建议”测试连接”。 - 修改/删除数据源
在数据源列表中可以选定数据源进行修改/删除操作。注意:若该数据源正在作为某个数据同步任务的源/目标,则无法删除。
4.配置任务
点击左侧菜单栏->数据同步-> 任务,您可以在这个页面编辑添加数据同步任务,从任务类别上分为定时任务和普通任务,从数据加载方式上分为全量和增量导入。
- 添加任务
点击右上角的”添加任务”,会切换到编辑页面,您可以根据需求来定制任务, 如下图所示,您可以通过勾选”定时”选项,填入定时信息,将该任务配置成一个定时任务。配置完成后,点击下一步,注意:配置最大并发时不要超过数据源的最大连接数。
来到如下图所示界面,您可以在数据源/数据目标的下拉菜单中选择已添加的数据源,根据数据源的选择不同,会展示出相应的树状图,您需要在左边树状图选择某个表/文件/目录作为数据同步任务的源。当数据源为数据库时,界面如下,您可以根据需求选择”自动建表”/”增量导入”。自动建表时,在”表类型”下拉 框中可以选择目标表的类别,目前支持csv、text、orc、append-only、magmaap、parquet几种类型。
当选择数据源为HDFS等文件系统时,如下图所示,您可以通过鼠标右键点击目录上传,或者右键点击文件预览。注意:当选择数据同步的源为文件系统时,务必事先创建好目标表。
点击下一步后,会根据选择的源和目标生成详细配置。当选择不同类别的数据源时,配置项也不同。当选择数据源为数据库时,如下图所示,您可以根据需求在此页面配置字段加密、Hash列,勾选“高级选项”后,可以配置主键约束、分区信息等。注意:不同的目标表类型支持的表属性和列约束不同。
当选择数据源为HDFS等文件系统时,如下图所示,您需要根据文件类型和内容进行相关配置。不同的文件类型,配置项也不尽相同。
最后点击保存后,会自动跳转到任务列表,若任务配置合理,您可以看到状态栏中显示”已完善”。注意:您在配置任务的环节中也可以点击”保存”,此时会保存您配置好的信息,并且任务状态置为”待完善”,只有状态是”已完善”的任务,才可以启动。
- 启动普通任务
您在启动一个普通任务时,直接点击启动按钮即可,当该任务是增量任务时,我们支持自定义增量区间,您可以指定区间来导入数据,若不指定则按照默认方式增量导入。注意:正在运行的任务无法再次启动。 - 启动定时任务
定时任务是根据开始时间、时间间隔的配置来自动触发的,不过在此之前您需要激活定时器,如下图所示。当然,您也可以直接点击启动来执行一次该任务。
- 任务进度监控
点击”启动”按钮启动任务后,会显示任务的执行进度,通过进度监控,您可以直观的看出任务的执行速度、数据加载行数以及数据流向等等。 - 停止/修改/删除任务
在任务列表中的最后一列点击按钮即可完成对应操作。注意:当任务正在运行时,任务无法删除。 - 查看历史
您可以在任务列表中点击任务名称连接来查看任务的历史记录和类型映射。在任务历史中,您可以追溯该任务的操作历史。如下图所示。
5.配置密钥
点击左侧菜单栏->数据同步->配置,您可以在这里配置字段加密的密钥,当前我们只支持 MD5加密。当然,如果您不配置密钥,默认密钥是”none”。