暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

谈谈数据治理中的元数据管理及应用案例

数据驱动智能 2020-07-16
481

点击蓝色字免费订阅,每天收到这样的好信息

      元数据是对数据属性信息的描述,其有助于对数据对象的理解、定位和管理。对于企业管理信息系统来说,根据主体对象不同,可分为业务元数据和技术元数据两种类型。

      a)业务元数据。业务元数据是对业务领域的相关概念、关系、规则,如业务指标、业务术语等的定义和相关关系的描述。其中:业务指标元数据是对业务总体数量特征概念的描述。对于电商来说,新增用户数、发展用户数等就是重要的业务指标,业务术语元数据是对业务名词或名词短语,如高价值客户、VIP客户等术语定义的描述。

      b)技术元数据。技术元数据是对技术领域的相关概念、关系、规则,如源系统、数据模型、数据处理过程等定义的描述。

      一、元数据管理、主数据管理、数据标准管理的关系

      元数据管理是数据管理各项工作的核心,是主数据管理的基础组成,也是数据标准实施的载体。

      主数据是各系统间共享的重要基础数据。主数据管理作为数据管理的高级形式,通过对重要数据的共享与同步,实现了数据管理与数据应用的有机结合。目前工业企业主数据管理,通常是以物料、供应商、客户、产品为目标,实现相关数据的集中管理与共享同步。在大数据平台或数据中台建设中,除建立相应的主数据系统外,可以由元数据管理实现主数据管理功能。首先,通过数据标准实现主数据的定义,将数据标准按照客户、产品、协议等主题进行分类定义,在明确每个标准信息项的业务属性和技术属性同时,设置“数据主系统”属性,明确每一项数据共享的主系统。其次,通过数据标准在系统开发过程的落地,确保数据接口的取数逻辑符合数据主系统定义,满足数据共享的准确一致。最后,通过数据标准在元模型的落地和企业级元数据库管理,实现对主数据定义的统一管理。

      数据标准是为了保证数据定义和交换的一致与准确而制定的规范性文件。对于数据标准管理,可以基于元数据管理实现标准的动态闭环管理,一方面在元数据设计过程中落地数据标准,并在数据模型上线前,通过元数据审核功能检验数据标准落地情况;另一方面,通过元数据的设计发现标准的缺失和不足,从而推动标准的制定与完善。

      二、基于元数据的数据管理

      1、元数据管理的本质

      元数据是关于数据的数据,描述了数据的定义和属性。传统的元数据管理过程,有些仅仅将元数据管理当做简单的工具,仅实现了元数据信息的浏览和分析;或虽实现了元数据的部分管理,但视角较单一,仅仅从技术角度出发,而忽略了企业不同工作领域的需求。在明确元数据管理概念时,我们需要回归到元数据管理的真正需求,回归到企业数据管理本身。只有通过对企业数据管理工作领域的梳理和归纳,才能还原出元数据管理的真正对象,元数据管理才能做到脱离简单的工具变为管理和服务的平台。也只有如此,元数据管理才不会变为无源之水,无根之木。

      因此,元数据管理的本质是通过元数据管理实现各类数据管理手段的回归,实现数据管理的统筹

      2.元数据管理的实现

      基于对元数据管理方法的实践,将元数据管理、元数据应用和数据管理工作等三部分内容有机结合,形成动态、闭环、螺旋上升的完整体系,如下图所示。

      (1)元数据管理

      元数据管理厘清了元数据之间的关系与脉络,规范了元数据设计、实现和运维的全过程,为元数据的应用奠定了坚实基础;同时,元数据的有效管理搭建了业务与技术的桥梁,为系统建设、系统运维、业务操作、管理分析和数据管控等工作的开展提供了重要指导。

      从元数据管理的内容出发,需要将业务元数据、技术元数据和操作元数据等三方面有机结合。通过业务和技术元数据的映射并结合操作元数据管理,建立企业经营管理业务领域与元数据设计、实现和运维之间的关系,最终形成元数据管理的主体框架。

      元数据的设计阶段,应通过统一的设计规范并完成数据标准落地工作;元数据的实现阶段,要对元数据开发实现及标准落地情况进行检核并记录上线版本;元数据的运维阶段,要对运行状态的元数据定期进行比对分析,掌握实际情况。通过对元数据不同阶段的协调统筹管理,将实现元数据的动态管理,保证及时、客观、准确地反映元数据现状。

      (2)元数据应用

      元数据应用为数据管理工作提供服务和支持,同时也会优化和完善元数据管理的相关内容。元数据应用包括元数据基础功能、元数据分析和元数据质量管理等三部分。

      元数据管理基础功能主要是支撑元数据系统运行的基础应用,主要包含元数据维护、元数据查询、元数据版本管理、元数据统计、元数据使用情况统计等功能。

      元数据分析主要包含血缘分析、影响分析、实体关联分析、实体差异分析、主机拓扑分析和指标一致性分析等功能。通过元数据的影响分析和血缘分析,可以清晰的展现各应用系统的全局框架,为系统架构设计、应用开发测试、版本发布等工作提供可靠的支撑;通过实体关联分析、实体差异分析可以了解实体的重要程度以及实体之间的关联性和差异性,为需求变更提供影响评估,并为业务定义的统一提供支撑;指标一致性分析可以帮助用户更好地了解指标加工的来龙去脉,清楚理解指标定义。

      元数据质量管理的主要目标是提高元数据自身的质量,建立有效的元数据质量检查机制,及时发现、报告和处理元数据的质量问题。元数据质量检查包含但不限于以下内容:元数据一致性、元数据关系的健全性、元数据属性的填充率、元数据名称重复性、元数据关键属性的填充率和元数据关键属性值的唯一性。元数据质量管理能够生成详细的检查报告供相关人员使用。

      (3)数据管理域

      数据管理工作领域包括系统建设、系统运维、业务操作、管理分析和数据管控等五部分。数据管理各领域既是元数据管理和应用的需求方和服务对象,也能促进和优化元数据管理和应用工作。元数据管理和应用对数据管理工作五个领域的指导和支撑作用如下。

      系统建设:企业级元数据管理不仅可以规范IT建设流程,提高设计开发质量,也有助于开发人员了解数据交互情况,为系统间的接口开发提供支持。

      系统运维:通过操作元数据管理,掌握系统间作业调度和ETL过程,为批任务监控、异常预警和定位及影响分析提供有力支持。

      业务操作:简化业务人员的数据查询工作,可便捷找到所关注的业务元数据在系统中对应的数据项,并了解相关业务元数据的系统分布和使用情况。

      管理分析:便于业务分析人员明确统计口径、选择恰当的分析数据项,有助于各部门实现灵活、丰富的自助数据统计和分析工作。

      数据管控:提升数据管理水平,直观展现数据全貌与脉络地图,为数据质量问题的快速定位、数据管控措施的影响性分析和数据标准落地等工作提供重要支持。

      三、指标元数据的应用实践

      1、指标数据的定义

      指标数据是企业管理、业务运营过程中所有指标的集合,也是用来描述企业各个方面相互依存、相互制约的关系指标集合。业务指标是业务元数据的重要组成部分,指标数据是业务元数据的核心应用,供各个部门业务分析人员、技术人员使用,对业务指标信息进行解释。

      2、企业指标数据管理现状

      a)同一指标数据的定义不统一。集团管理部门以及子分公司对同一指标存在着不同的理解,导致上报数据不统一与信息遗漏,产生数据失真等问题,使企业管理统计、数据分析工作产生了很大困难。

      b)缺乏IT手段支撑。企业范围内缺乏统一的管理系统对指标进行系统化支撑,没有形成支撑指标元数据管理的技术能力,无法追溯数据的业务源头和数据加工的处理过程,致使指标数据的一致性和完整性要求得不到保障。

      3、指标元数据管理方法思路

      为加强企业数据管理工作、解决指标数据管理存在的问题,采用指标元数据管理方法思路解决指标管理的问题。

      a)首先在企业范围内对指标数据进行设计。将梳理成果作为输入导入指标元数据支撑平台。

      b)由指标元数据支撑平台对指标数据进行统一管理,并提供指标元数据应用。

      c)在管理层面,为满足指标数据集中化管理需要,指标数据维护应遵循规范化管理流程。

      4、指标数据设计

      (1)指标数据设计思路

      指标是对同类现象总体数量特征的描述,也是获取数据的依据。指标体系架构应根据企业生产流程、行业统一分类方式进行设计,真实描述每一环节信息原貌、全面反映企业运营状况、确保基本架构的相对稳定和清晰的指标定义。

      除生产流程外,指标数据设计采用自顶向下与自底向上相结合的设计方法。其中:自顶向下是指要站在全企业的高度上来对待企业各个业务领域和全业务过程,自顶向下地进行演绎,以使指标更加体系化;自底向上是指基于现有指标体系和业务理解,梳理当前指标存在的问题,自底向上地进行归纳。

      (2)指标数据描述方式

      从元数据角度出发,对指标采用属性描述方式。

      a)维度。维度模型属性包括维度标识、名称、描述及层级等。维度应按照业务分析需要逐层展开。

      b)基本指标。基本指标属性包括基本指标编号、指标名称、业务解释、计量单位等。

      c)指标。指标由维度和基本指标组成,如ETC业务网上用户数由ETC业务维度和网上用户数基本指标组成。

      指标基本属性包括指标的标识代码、名称、描述、数据来源、口径、统计频度、度量单位、创建日期、最后修订日期及指标备注等,其他属性可根据指标查询的展示需求进行扩展。将企业管理统计、数据分析中覆盖的全部业务指标按照上述标准化方式进行定义和描述后,也就完成了指标数据的设计工作。

      5、指标元数据支撑平台

      (1)元数据支撑平台总体架构

在从业务角度完成指标数据设计后,为提供指标数据维护和使用所需的相关管理、查询检索和各种分析功能,指标元数据支撑平台应包含指标元数据获取层、存储层、应用层和访问层。

      (2)指标元数据获取

      将包含指标属性的的指标数据的梳理成果按照模板整理成XLS文件,由元数据管理工具批量导入。以后可根据系统功能的扩展情况,可采取自动获取等方式获取指标元数据。

      (3)指标元数据存储

      在逻辑层面上,指标元数据按对象形式进行组织,指标元数据间的关系按对象关系进行组织,指标元模型按类的形式进行组织,逻辑模型应遵循对象管理组织(OMG)的CWM1.1标准。除指标属性外,为满足指标元数据的各类应用需求,还应在元数据存储中考虑指标加工的相关技术元数据与元数据间的关系属性,包括指标元数据与应用元数据间的关系属性及逻辑模型与物理模型间的关系属性。

      a)指标元数据与应用元数据间的关系属性。应用元数据是指报表、主题分析等应用层元数据,包括应用与数据服务或数据库对象的依赖关系、应用与业务指标的关系。由于指标数值可通过报表或主题分析来提供,因此需定义指标元数据和报表、主题分析间“由⋯⋯提供”的关系,作为指标活跃度统计分析的依据。

      b)逻辑模型与物理模型问的关系属性。ETL过程以物理模型为加工对象,指标口径定义以逻辑模型、数据编码为依据。只有明确逻辑模型与物理模型问的映射关系,业务解释才能完整的落地,技术处理过程才能清晰化。

      映射关系用来描述逻辑模型与物理模型间的关系,实现系统应用层对物理层的透明访问。在映射关系、指标元数据及其他技术元数据的基础上,用户以图形化形式查看指定指标的数据加工过程的同时,能够验证指标实际加工过程是否满足指标计算口径的定义。

      c)其他。元模型、元数据的维护历史、操作日志也需存储。

      (4)指标元数据应用

      指标元数据的应用包括基础应用和指标分析两类功能。其中:基础功能包括元数据维护、查询、版本管理、权限管理及日志管理等功能;分析功能包括影响、血缘、一致性及活跃度分析等功能。基于这些功能组合形成的指标元数据应用功能包括指标数据维护、浏览、查询及指标加工过程浏览、指标活跃度分析等功能。

      a)指标数据维护。指标元数据主要通过人工梳理后导入元数据库,同时用户也可对少量指标元数据进行人工维护。

      b)指标数据浏览。提供树形的指标数据层次结构展现浏览,支持展开、折叠及分页展现,为各类用户提供指标导航。

      c)指标数据查询。通过指标元数据的检索功能,按指标名称、定义及指标与应用的关系等查询符合条件的指标。

      d)指标加工过程浏览。元数据血缘分析是指从某一实体出发,向上追溯其处理过程,直至相应业务系统、数据源接口或数据产生地。结合技术元数据,通过元数据血缘的分析功能,指标数据支撑平台支持以图形化形式查看指定指标的数据来源、加工过程所涉及的所有对象和加工路径,验证指标实际加工过程是否满足指标计算口径的定义。

      e)指标活跃度分析。通过对元数据活跃度的分析,可反映出指标在相应的业务逻辑或功能逻辑中是否被频繁引用、该指标是否是相关环境的瓶颈,进而帮助判断相关业务设计或技术设计是否准确

      6、指标元数据维护管理流程

      指标元数据的所有维护操作应遵循规范化的操作流程,因此应培训、引导技术人员和业务人员将元数据支撑平台作为指标数据的日常管理工具,以提升元数据的准确性和时效性、保障元数据的质量,为指标元数据在实际生产运维中的应用价值的发挥奠定坚实基础。

      元数据维护管理制度流程(示例)如下图所示。

      a)需求提出。指标数据维护需求由业务部门提出,按模板要求填写元数据文件,并作为需求单附件提交。

      b)审批。指标元数据主管根据维护类型确定相应的维护分析人员,各维护分析人员评估需求对系统各专业领域的影响范围。指标元数据主管归纳整合维护分析结果,形成完整的需求维护影响分析结论,完成需求的审批流程。

      c)开发。指标元数据维护需求可能涉及到系统的开发实现,也可能不需要开发实现。需要开发实现的需求(如指标口径修改),由相关厂商进行开发和测试;不需要开发实现的需求,指的是对指标元数据自身的维护需求,如对指标描述纠错等。

      d)实施校验。当需求部署到生产环境及相关指标元数据维护完毕后,需求主管应组织相关业务人员或技术人员检验需求实现情况。

      e)发布及需求关闭。需求实施检验通过后,由需求主管归档需求信息、发布需求上线通知、关闭需求单、结束需求处理流程。

      7、指标数据管理意义

      指标数据是企业管理信息系统的重要数据资源之一,对业务运营分析和管理决策的支持起到重要的撑作用。基于元数据的指标数据管理方案能有效地提高指标及指标数据管理的规范性,保障系统开发方、数据管理方及用户对指标理解的一致性,提升企业数据管理及数据分析水平。

      四、A集团元数据管理的探索与实践

      A集团自2009年启动元数据管理工作以来,已逐步形成以管理办法为指导、数据标准为保障、系统支持为手段的元数据管理体系。

      1.发布元数据管理办法

      《A集团元数据管理办法》规定了元数据管理的范围、内容和流程,明确了元数据设计、开发、采集和使用各环节的相关方责任,制定了IT系统新建和变更时的元数据审批流程,对元数据管理工作的有效开展提供了重要指导和规范。

      2.制定并执行数据标准

      要保证元数据定义的科学、统一,就要坚持“标准先行”。A集团数据标准的内容分为业务和技术两部分,为业务元数据和技术元数据的贯通奠定了基础。业务部分对数据进行了统一的业务定义,包括数据项的业务涵义和数据项处理加工过程中应遵循的业务规则等,并明确了数据项的归口业务部门;技术部分从对数据的技术属性进行统一规范和定义,包括字段长度、数据格式等。目前,A集团已经制定完成了客户、产品、交易、协议、财务、资产、营销、渠道、内部机构和员工等九个主题的2623项基础类数据标准和1068项分析类数据标准,基本满足了元数据定义和设计的要求。

      对于数据标准落地执行,A集团坚持标准在业务和技术领域的同步落地。一方面,推动数据标准在各类业务开展与创新、业务制度和操作手册的编写中落地;另一方面,将数据标准落地与元数据设计紧密结合,通过发布《数据标准在IT系统落地细则》,明确了系统设计、开发过程中的标准落地要求和执行方法,并通过上线前的数据模型审批,确保标准落地质量。此外,建立了标准落问题反馈机制,形成了落地工作对标准制定维护的促进和完善机制。目前,A集团已在核心系统、全流程信贷系统、中小企业贷款系统、客户关系管理系统和数据仓库等重要IT系统以及和其相关联的37个周边系统中完成1735项标准落地,标准实施覆盖了A集团90%以上的业务以及全部关键IT系统,同时开展了客户、产品、内部机构及行业代码的专项落地工作,点面结合,有效地保证了系统间的数据规范性和一致性。

      3.数据管理系统建设

      A集团已建成以元数据管理、数据标准管理和数据质量管理为主要功能的数据管理系统,实现了对重要生产系统、ODS和数据仓库、部分管理分析类系统的元数据采集与管理,支持企业级数据模型审批、数据标准和数据质量考核等工作。目前,随着数据管理工作精细化要求的不断提高,建成以企业级元数据管理为基础和核心,实现全员参与数据管理工作的IT支持平台。

      一是扩展元数据管理范围,逐步实现对各类IT系统元数据的统筹管理;

      二是完善元数据管理流程,通过建立统一的元数据开发模块和上线审批机制,对数据跑批作业和ETL过程的监控调度以及定期的IT系统元数据比对更新,实现对元数据的动态更新和地图展现;

      三是提升元数据管理与数据标准管理、数据质量管理、数据管控审批和数据归档等功能的融合与集成,实现数据的全生命周期管理。



扫描二维码

获取更多精彩

数据驱动智能



推荐阅读


谈谈如何有效进行数据质量管理


谈谈基于DCMM模型的数据资产管理框架以及数据资产增值的方法


谈谈大型集团如何构建数据安全治理技术体系



文章转载自数据驱动智能,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论