首先需要避免一个误区,技术组件在数据治理的过程充当的角色很重要,但还不是决定性作用,决定不了数据治理的成败,数据治理需要公司成立专业的数据管理组织、建立数据管理框架、发布数据管理政策,当全员都拥有数据治理的理念后,再通过建设统一的数据底座,实现数据全面入湖,建立数据模型,辅以数据服务、数据地图、数据安全等手段,最终实现数据随需共享、敏捷自助、安全透明的目标。
为什么需要数据治理?
为保障各业务领域数据工作的有序开展,需建立统一的数据治理能力,如数据体系、数据分类、数据感知、数据质量、安全与隐私等。
数据治理的目标是什么?
数据治理应该怎么做?
发布指导政策:统一规划、顶层设计数据治理蓝图,明确数据治理的基本原则,确保有效的数据治理环境
组建专业组织:设立数据管理专业组织,制定数据管理相关的政策、流程、方法和支撑系统,监控数据质量,披露重大数据问题;建立数据管理责任体系,认命数据owner,owner负责数据产生、质量、解释;通过内控体系,进行数据专项内部审计,揭示数据治理过程的问题,确定改进目标和责任人,从而保证数据治理机制的有效运作
构建技术管理:数据从业务中产生,在IT系统中落地,为了支撑企业数据资产从架构设计、质量管理到数据分析应用的全生命周期管理,在项目交付时,要提供数据解决方案,包含信息架构设计、数据质量度量、改进方案和数据分析方案
统一数据底座:统一管理、打通数据生产和消费通道,确保数据完整、一致、共享,保障数据安全可控
数据治理的工具和方法?
数据湖:不管是实体入湖还是虚拟入湖,数据都要入湖
数据模型:在数据湖上构建数据模型,将数据转换为信息
数据质量:数据治理的核心目标之一就是不断提升数据质量,数据质量遵从谁生产谁负责,保证进入到数据湖的源数据的质量,形成干净、完整、一致的数据湖;数据质量是可检测、可发现、可度量的,通过数据数据质量,让数据owner了解数据的质量,根据质量评估情况,推动数据质量的提升,满足数据消费方对质量的要求
数据分析服务:面向业务人员,可以直接对数据湖里的数据模型自助化分析。过去,各业务部门的分析诉求往往通过“保姆式”开发模式来满足,即业务部门只负责提出需求,所有的方案从设计到开发实现,统一由IT部门完成;但是“服务+自助”模式,即只提供统一的数据服务和分析能力组件服务,各业务部门可以根据业务需要进行灵活的数据分析消费,数据分析的方案和结果由业务自己完成,这一模式有如下几个价值:数据分析消费周期极大缩短、发挥业务运营主观能动性、减少“烟囱式系统”的重复建设
数据API服务:面向IT系统,提供数据事件驱动的“响应”
数据地图:解决找不到、看不懂的问题,打通业务元数据、技术元数据,包括逻辑实体和物理表、业务属性和表字段的对应关系,并且管理数据资产目录,支撑数据消费人员通过业务语义快速搜索数据湖中数据。业务元数据是用户访问数据时了解业务含义的途径,包括资产目录、Owner、数据密级等;技术元数据是实施人员开发系统时使用的数据,包括物理模型的表与字段、ETL规则、集成关系等;操作元数据是数据处理日志及运营情况的数据,包括调度频度、访问记录等。数据资产目录可以识别数据管理责任,解决数据问题争议,资产目录一般包括主题域分组、主题域、业务对象、逻辑数据实体、业务属性等。