2020年12月18日,由中国信息通信研究院、中国通信标准化协会联合举办的“2020数据资产管理大会”在京召开。在论坛上,Datablau数语科技创始人&CEO王琤发表了题为“金融业数据架构的实践之路”的主题演讲。

演讲内容主要有以下几点:
基于以上三个点给大家做一个介绍,今年Datablau也有幸入选到FORRESTER MLDC(基于机器学习的资产目录)象限里面来。FORRESTER对我们做的评价是,从事前的数据模型到事后的数据资产治理平台到数据资产目录形成闭环,我们的国产化数据建模设计工具,可以将标准落到数据模型,还有我们想强调懂业务的数据治理平台,事关重要。之前大家做元数据管理多是从业务系统数据库、纯技术角度看这个东西,而数据用在业务场景,所以必须是懂业务的数据治理平台。第三块就是社区化、智能化,刚才也说了这个是FORRESTER类似于MLDC主推的。

下面进入本次主题【数据架构】,企业里面数据架构、数据模型这块肯定是必不可少的,怎么建构、有什么标准的建设路径和标准方法呢。
先说企业架构:从企业架构到数据架构,企业架构一般又分成业务架构、信息架构、流程架构,比如我最近看到中国银行专门成立企业架构办,建行不用说了,十多年前就已经是这样的模式,数据模型是各个架构域沟通的产物。

下面这张片子的归纳会给大家更宽的视角,现在搞数据都是在最右边数仓或者数据中台,在开发数据产品的过程中,涉及到概念模型、逻辑模型,维度模型。
往左看是企业的业务系统,业务系统底层也是数据模型,每一个业务系统在开发的过程中,不管是设计标准的ER图,还是数据字典都是必须要有的。这些产品本身服务要么是企业的最终的客户,比如网上银行手机APP,也有可能是企业里面的一些内部系统,我们的ECIF系统、交易系统。所以我们的模型应该在架构层面上统一,并且应用在企业的业务系统和数仓,我们不只是数仓这一个视角谈数据架构和数据模型。

这张片子讲三个大的数据架构模式。基本行业里大家做数据架构就是这三种:
1、敏捷数仓
一些互联网企业,包括中小型企业,基本上有什么数据需求,比如财务部门的报表需求,把需求拆解成指标,然后直接建数仓的宽表,建完宽表这件事就结束了。确实是敏捷,基本上几个月就把项目就搞定了,但是后面会有很多遗症,这种小作坊的模式会有表爆炸的问题,下次另一个数仓项目基本不会考虑复用已有的宽表,重新搞一套,这个是敏捷数仓最大的问题,缺乏统筹规划和复用。
所以像看到阿里生态里面,很多中小企业都是这样的模式。本质上是企业成长过程中必经的阶段,数据部门为了证实价值而采用敏捷快速的模式。

2、大中型企业
这两年通过数据治理项目,数据标准已经创建出来了,已经梳理出来很多的数据标准,现在要把这些标准落标,今天会上有嘉宾讲到很多的落标核标的问题,能不能把这个标准落到物理模型,从前端的业务系统或者数据中台设计符合这个标准,所以它更多强调的是企业有一个中心的模型库,各系统、各项目、包括中台/数仓及企业级数据模型都能看到,再逐步符合落标的要求,这个是数据模型管控,这个更多是在大中型企业,规划两三年周期的数据架构的构建模式。
3、企业级数据模型
这个更复杂一些,在大型企业里面用的比较多。是规划架构先行,高层领导要有高瞻远瞩的视野,要看这个企业五年十年的长期规划,就像当年建行新一代就是按照美国银行(BOA)的方式,看的是建行十年二十的发展,就要投入这么多人。记得09年,建行直接设立300人的数据管理部,直接去搞企业级数据模型。这是个利在千秋的事。
模型设计、持续集成、并发协作这些其实都相应的配套,无论是敏捷的数仓开发、数据模型管控,还是企业级数据模型。它本身分:业务系统三范式模型、ODS、DWD、DWS,包括集市的模型、DataVault模型,也有一些混合模型的设计。


谈到了敏捷模型这块复用问题,会表爆炸,所以这种模式建设成本会逐步上升。问题的原因在于要把以前的脏乱差做一个整合,形成一个对业务抽象的数仓层,还要满足新需求,把这两块的东西都集中在一起,导致异常的复杂。比如新上线一个系统引发的重构数仓是非常痛苦的,一些维度、事实表也不能用了。
所以敏捷数仓的成本都是越来越高,这也是为什么我们考虑说开始做模型管控,考虑开始搞企业级数据模型,做EDW企业级数仓。最极端的情况,各个部门(销售部门、财务部门、市场营销部门)各做一套数仓出来,这是敏捷数仓最终的演变结果,甚至每个不同的部门把数仓接管过去,自己再找供应商构建。



如果要构建企业级数仓、企业级数据模型,有一些行业模型可参考,比如金融行业,像IBM FSDM、Teradata FS-LDM等。

总之,敏捷数仓和架构设计要做均衡,在EDW企业级数仓之前,把变化最频繁的【数据需求】分离出来往后放。前面去抽象业务。把不常变动的业务系统放在EDW层,处理不同数据需求放在第二步,如此处理成本就会慢慢降低。

当然数据模型也涉及到数据标准落标和管控,业务系统上线,上线后才发现业务系统产生的数不符合数据标准,这太晚了。所以要把标准跟数据模型结合在一起,在做模型设计的时候落进去,上线的时候做模型管控,这样的话后面的数据标准、数据质量都不会有太多的问题。

这是标准的模型管控流程,第一列是数据标准的维护建设,之后数据标准会同步到下面的数据建模工具里面来,在第二列模型设计的过程中,可以在画ER图过程中落标,落完标在第三列数据模型评审过程中管控当前的落标的情况、数据模型设计得是否合理,再之后在第四列元数据与数据模型基线比对是否一致,确保数据模型管控流程。

关于Datablau Data Modeler
▔
关于Datablau
▔
王琤Allen CEO
曾任CA ERwin全球研发负责人,2006年加入CA,十几年经验在数据建模领域,客户多来自世界500强、美国银行(BOA)、SunTrust、AT&T、壳牌等深度参与建设银行新一代系统数据模型设计。多项专利和论文关于统一(关系型与非关系型)数据建模。复旦大学、北京航空航天大学 客座讲师。IEEE member、 OMG member、DAMA member。





