数据目录应该具有一些基本功能,以促进整个组织数据环境中的无缝数据发现、治理、沿袭、协作和自动化。
以下是评估解决方案提供商时应考虑的数据目录的 15 个基本特征:
1.用于本地导入元数据的开箱即用 (OOTB)连接器
2.通过使用 OOTB 连接器挖掘沿袭信息来自动创建沿袭
3.使用API 的可扩展性
4.以编程方式创建 沿袭,使用 API 从任何工具中提取沿袭
5.SQL 语法和自然语言搜索
6.浏览和过滤以自定义数据搜索和发现
7.360° 数据配置文件,为每个数据资产构建类似 GitHub 的存储库
8.活跃的业务术语表可提供更好的背景信息
9.无需 SQL 知识即可查询数据
10.嵌入式 协作消除了应用程序之间的切换
11.活动 数据 沿袭直接从目录中处理管道问题
12.用于端到端可见性的列级沿袭
13.基于角色的策略,实现个性化、精细的访问控制
14.主动 元数据建立永远在线的智能数据生态系统
15.可定制的智能自动化以执行数据管理的各个方面

基本数据目录功能
此外,数据目录平台应该是可定制的、自助服务的(甚至对于业务用户而言)、智能的和开放的,以支持所有当前和未来的数据和分析用例。
因此,让我们探索每个数据目录功能,以了解其对现代编目和数据管理的重要性。
数据是多样的、精细的、动态的,并通过技术堆栈中的众多应用程序涌入。大多数数据团队面临的首要挑战是将所有数据整合在一起并准备好大规模使用。
这就是为什么数据目录提供集成并支持与数据工具的平滑互操作性非常重要。这些集成可以是开箱即用 (OOTB) 连接器或 API。
数据目录中的开箱即用 (OOTB) 连接器提供与以下各项的本机集成:
·Amazon Redshift、Google BigQuery、MySQL、Salesforce 和 Snowflake 等数据源
·Looker、Microsoft Power BI 和 Tableau 等 BI 工具
·数据移动工具,例如 dbt Cloud 和 Fivetran
通过本机集成,只需连接源、验证连接、指定编目平台应扫描的内容并设置爬网频率来收集元数据。
当数据目录支持 (OOTB) 连接器时,沿袭也会自动化,直至列级别。例如,如果您的数据目录与 Snowflake 本机连接,则在您验证连接并抓取 Snowflake 后,它将立即生成沿袭映射。
因此,您可以通过连接从数据仓库到 BI 工具的所有内容来设置跨系统沿袭,并且数据目录将自动导入沿袭信息。

使用 OOTB 连接器在数据目录中自动创建沿袭。
如上所述,确保与现代数据堆栈的其余部分无缝集成的另一种方法是通过开放 API。
借助开放 API,您可以从任何来源的任何数据产品引入元数据。开放式 API 架构可让您集成来自您自己开发的工具、DynamoDB 或 S3 存储桶等数据源以及 Apache Airflow 或 Dagster 等编排套件的沿袭。
数据团队面临的另一个问题是缺乏数据资产的可见性。据 Forrester 称,端到端可视性可以帮助数据工程师可视化现有和未来的数据源和集成,以支持影响分析、根本原因分析、错误修复和数据策略合规性
这就是开放 API 设置可以提供帮助的地方。借助开放 API,您可以通过引入任何您想要的数据产品来生成谱系。例如,您可以构建一个工作流程,将 HubSpot 连接到 Salesforce,并将它们与数据目录集成以创建可视化沿袭映射。

使用 API 在数据目录中以编程方式创建沿袭。
一个关键的数据目录功能是基于关键字的搜索。所以。数据目录应该配备类似 Google 的搜索引擎,让您可以搜索所有数据资产、查找 SQL 语法、发现与业务指标相关的资产等等。
就像谷歌一样,搜索也应该显示相关的搜索结果——同义词、反义词、关联报告等等。

对于您的数据世界,数据目录界面应该像 Google 一样。亚特兰截图
这对于从整个数据环境中找到正确的数据至关重要——数据搜索和发现的一站式商店。
搜索正确数据的能力大大减少了搜索数据所花费的时间。
但是,使用元数据属性自定义搜索的功能可以帮助您过滤结果并快速归零最相关的数据。这些过滤器可以包含元数据,例如:
·资产类型
·所有者
·分类类型
·上次运行状态
·认证(已验证、草稿、已弃用或无证书)
·术语表
·资产属性(标题、描述、沿袭、创建或上次更新)
·用法

数据目录中的元数据过滤器如何创建个性化的数据购物体验。
360° 数据配置文件类似于每个数据资产的类似 GitHub 的存储库或 LinkedIn 个人资料。数据目录应在散列或编辑敏感数据时提供所有数据的屏蔽预览。
每个个人资料应包括:
·综合表格摘要
·自述文件
·查询历史记录
·指标
·仪表板
·活动日志
·本机嵌入 Slack、Google Drive、Confluence docs、Jira、Looker 和 GitHub 等工具
·类似概念的命令可快速格式化您的内容

数据目录中的 360° 可视性是什么样的。
您还应该能够使用每个数据资产的类似 GitHub 的 URL 或通过 Slack 等通信工具共享这些配置文件。
因此,您可以使用一个接口来获取有关数据的所有上下文 - 谁拥有数据集、数据来自何处、数据如何更改以及如何使用数据。
业务术语表是您组织的第二大脑,它模仿您的业务领域并突出显示您的数据、定义和领域的连接方式。因此,它将提供有关 KPI、指标、业务分类法等的背景信息。

一个关键的数据目录功能是活跃的业务术语表。
活跃的业务术语表更进一步,通过链接相关的定义、指标和资产来创建一个互联的组织。您还应该能够通过添加详细信息(例如所有者、自述文件、文档和认证)来编译组织中的所有部落知识。
术语表还应该通过显示版本历史记录、活动日志和公告来让您了解每个术语的发展历程。
查询数据对于通过合并不同的表、添加或删除不相关的数据或为频繁搜索的数据资产构建目录视图来查找所需的答案至关重要。
传统上,执行这些操作需要您熟悉 SQL。然而,现代数据目录甚至可以帮助非技术(业务)用户通过低代码/无代码界面和智能自动化运行 SQL 查询。
这就是为什么任何现代数据目录都应该提供的一个重要功能是能够:
·通过编写自己的 SQL 或使用无代码、可视化 SQL 生成器,直接从平台查询数据资产
·编写查询时自动建议相关列/表
·在 SQL 中添加自定义变量
·具有丰富元数据上下文的自动完成查询
·创建查询集合并安排它们以特定时间间隔运行
·保存查询并将其整理到文件夹/集合中
·自动将保存的查询链接到查询中使用的表和列
·打开和关闭整个查询功能
数据目录的一个基本特征是嵌入式协作,它借鉴了团队已经使用和喜爱的现代工具的原理。它使微流能够为数据的双向移动提供动力——可以将其视为反向 ETL,但针对的是数据资产。
具有嵌入式协作的数据目录不仅仅作为独立工具存在。相反,它无缝地融入到数据团队的日常工作流程中。因此,您可以讨论数据资产、提出支持请求、链接 Slack 线程、标记其他线程以及通过链接共享数据资产。
借助嵌入式协作等功能,您可以停止在应用程序之间切换,而是使用数据目录来实现用例,例如:
·通过链接请求和访问数据资产
·使用您最喜欢的协作工具批准或拒绝访问请求
·在 Slack 上配置数据质量警报,以便您的团队可以询问有关数据资产的问题并直接在 Slack 中获取上下文
·无需离开正在调查数据资产的屏幕即可触发 Jira 上的支持请求

通过协作使数据分析民主化。
在支持嵌入式协作的平台中,您还可以获得活跃的数据沿袭。这意味着您可以在目录中使用内联操作 - 向下游所有者发出警报、针对损坏的资产提出支持请求或下载所有下游表以进行影响分析。

借助活跃的数据沿袭,从数据目录中提高 Jira 票据。
数据沿袭捕获数据如何在数据环境中流动,并且:
·追踪资产的起源以帮助进行根本原因分析
·追踪资产的目的地以帮助进行影响分析
·自动将元数据传播到派生资产
·启用端到端可见性以说明列级关系

列级别数据资产关系的端到端可见性。
数据人员是多种多样的——数据分析师、工程师、顾问和团队经理。每个角色都需要以不同级别的权限访问不同的资产。例如,工程师希望找到管道出现故障的资产来修复损坏的仪表板。同时,顾问可能想要检查某个仪表板上的数据上次更新的时间。
这就是为什么数据目录功能之一必须是基于角色的访问策略,以满足每个用户角色的偏好和需求。

数据目录中基于角色的访问策略。
您应该能够自定义每个用户的主页、显示相关元数据并管理正确的数据资产。这有助于自动应用个性化、精细的策略来管理访问并缩短总体价值实现时间。
活动元数据可帮助您持续分析数据以及发生在数据上或对其执行的所有操作。由活动元数据支持的数据目录将帮助您推动用例,例如:
·通过实时提醒,让数据消费者提前意识到潜在问题
·删除重复项并清除陈旧资产以削减成本并保持干净的数据环境
·数据管道的自动化质量控制
·持续验证指标计算以立即发现问题
·创建自定义相关性评分以增加流行数据资产的重用
·借助相关元数据支持安全性和合规性报告
随着数据量、准确性和速度的增长,自动化查找、编译和盘点数据(无论类型、格式或来源如何)的多个方面对于快速从数据中提取价值至关重要。
这就是智能自动化可以提供帮助的地方。例如,人工智能助手可以提供智能建议来填充上下文——数据资产描述、自述文件和见解。
AI 助手还可以帮助您编写 SQL 查询,通过编写必要的提示来运行自动无代码转换 - 不涉及编码。
智能自动化的一些可能性包括:
·创建规则和过滤器,通过针对资产描述、资产所有者、链接术语等的自动建议来加快文档编制速度。
·构建基于规则的行动手册来推动行动,例如自动发现未使用的资产、标记有风险或不良数据和异常值,以及跨敏感数据资产传播分类
·自动将数据所有者分配给数据源
Forrester Wave™ for DataOps,2022 年第 2 季度通过概述三项基本功能,强调了元数据的重要性及其在现代数据目录中发挥的作用。现代企业数据目录应该:
·解决数据和元数据的多样性、粒度和动态性质
·生成数据流和交付的性质和路径的深度透明度
·提供可强化现代数据运营和工程最佳实践的 UI/UX
这样的平台具有我们上面介绍的 15 项功能以及 Forrester 概述的三项基本功能,最终将满足所有要求:
·促进数据搜索和发现
·实现开放的知识共享和协作
·建立对数据的信任
·确保治理和监管合规
·在不损害数据安全和隐私的情况下实现数据民主化
原文链接:https://atlan.com/data-catalog-features




