暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

DataHub元数据管理平台概述

大数据杂货铺 2024-01-29
162

DataHub 是一个现代数据目录,旨在实现端到端数据发现、数据可观察性和数据治理。这个可扩展的元数据平台专为开发人员构建,以应对快速发展的数据生态系统的复杂性,并帮助数据从业者充分利用组织内数据的总价值。

以下是 DataHub 当前功能的概述。查看我们的路线图,看看接下来会发生什么。

 

搜索和发现  

 

 

搜索数据堆栈  

DataHub 的统一搜索体验可跨数据库、数据湖、BI 平台、ML 特征存储、编排工具等显示结果

追踪端到端血缘  

通过跟踪跨平台、数据集、ETL/ELT 管道、图表、仪表板等的血缘,快速了解数据的端到端旅程。    

了解重大变更对下游依赖关系  

使用影响分析主动识别哪些实体可能受到重大变更的影响。   

 

查看元数据 360一目了然   

结合技术逻辑元数据,提供数据实体的 360° 视图。

生成数据集统计信息以了解数据的形状和分布

从远大前程等工具捕获历史数据验证结果

利用 DataHub 的架构版本历史记录来跟踪数据物理结构随时间的变化

现代数据治理   

 实时治理

操作框架支持以下实时用例:    

·通知:当 DataHub 上发生更改时生成组织特定的通知。例如,当“PII”标签添加到任何数据资产时,向治理团队发送电子邮件。

·工作流程集成:将 DataHub 集成到组织的内部工作流程中。例如,当在数据集上提出特定标签或术语时,创建 Jira 票证。

·同步:将DataHub 中所做的更改同步到第 3 方系统。例如,将DataHub中添加的Tag反映到Snowflake中。

·审核:审核谁在 DataHub 上随时间进行了哪些更改。

 

管理实体所有权

快速轻松地将实体所有权分配给用户和用户组。

     

使用标签、术语表和域   

使数据所有者能够通过以下方式管理其数据实体:

1.标签:非正式的、松散控制的标签,用作搜索和发现的工具。没有正式的中央管理。

2.词汇表术语:具有可选层次结构的受控词汇表,通常用于描述核心业务概念和度量。

3.域:精选的顶级文件夹或类别,广泛用于数据网格中,按部门(即财务、营销)或数据产品组织实体。

 

DataHub管理

 

创建用户、组和访问策略   

DataHub 管理员可以创建策略来定义谁可以针对哪些资源执行什么操作。创建新策略时,您将能够定义以下内容:

·策略类型- 平台(顶级 DataHub 平台权限,即管理用户、组和策略)或元数据(操作所有权、标签、文档等的能力)

·资源类型- 指定资源类型,例如数据集、仪表板、管道等

·权限- 选择权限集,例如编辑所有者、编辑文档、编辑链接

·用户和/或组- 分配相关用户和组;您还可以将策略分配给资源所有者,无论他们属于哪个组

   

 

UI  

使用 DataHub 用户界面创建、配置、计划和执行批量元数据摄取。通过最大限度地减少操作自定义集成管道所需的开销,可以更轻松地将元数据导入 DataHub。

原文链接:https://datahubproject.io/docs/features

              

文章转载自大数据杂货铺,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论