暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

DATASTAGE介绍及抽数基本操作

万物可述 2021-06-29
3950


这是万物可述的第27篇原创文章




DS介绍:

Ascential Datastage 是一套专门对多种操作数据源的数据抽取,转换和维护过程进行简化和自动化,并将其输入数据集市或数据仓库目标数据库的集成工具。

Datastage能够处理多种数据源的数据,包括主机系统的大型数据库开放系统上的关系数据库普通的文件系统。包括OracleSybaseDB2SQL severTeradataftp文件系统

数据清洗、转换、加载都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能

DS工具介绍:

 

Datastage Administrator:在服务器端管理ds的项目和服务器端的操作。主要用于常规的环境设置和参数设置

DS Designer:建立ds的job并编译执行的程序。主要用于job的开发及编译。

DS Director:运行和监控ds的job,主要job的调试。


DS抽数基本操作:
抽取对应系统的表,根据各个系统的数据库链接登陆对应的测试库,查询所要接的表是否存在,并查看该表所属的用户。
        
根据系统名、表名、所属用户进行系统级扫描、自定义变量、表级、字段级、抽数配置。

其中五个配置对应了五个excel模板,目的是上传交换平台,生成ds作业,五个模板是与交换平台的五个配置一 一对应的。

将配置好的ds_job导入Datastage工具,相应的系统的表的作业将存到对应系统的文件夹下

查询数据并生成文件,如果字段类型为varchar并且长度大于50,将回车换行替换掉

Transformer:对任何需要转换的输入的进数据集合行转换,并将数据传输到其他活动的stage中或一个将数据写入数据库或文件的Stage

从一个文件读取数据或将数据写入文件,通常是并行执行或可以配置成顺序执行,文件定义(行格式,列格式),列的分隔符和行的换行符之类的设置

ADMS表结构生成:

  • 系统级信息配置

  • 表级信息配置

  • 字段及信息配置

主要配置的信息为系统名、系统中文名、系统简称、是否入数据平台

根据SQL模板生成,分析算法,通常用的有全删全插0213、拉链算法0212、增量算法0210

针对算法配置主键,拉链算法一定要设置主键,标识UI1,所有的表都要设置分布键

根据配置的模板依次导入到ActiveDev平台

导入表级信息,验证无误,下一步导入字段级信息验证无误,则可以生成ddl层表结构、ods层表结构,脚本

生成ddl和ods层表结构和pl脚本

  • 选择逻辑层:TBL[技术缓冲层],QSL[近源模型层]

  • 选择数据流:F02101[TBL->QSL 从TBL到QSL加载的数据流]


GP信息配置:

  • 创建目录

  • 存放脚本

  • 设置权限

  • 加载配置

  • DS和ODS层数据验证




作者:张静

编辑:徐菲





据说中国有句古语叫「金无足赤,人无完人」,但是,如果谁真的想打起灯笼来到市面上寻找完人,最终令他感到的可能不是一种失望,而是一种意外:完人可能就是那些终日为「善」而奔走,而又在不知不觉中实现了「美」的「真」实不虚的普通人。

追求完美是正常而有缺憾的人性。

--尼采


文章转载自万物可述,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论