
在这篇文章中,我们将研究
为什么您应该识别您的关键数据资产 如何识别关键仪表板和数据模型 创建关键数据正常运行的文化
为什么您应该识别您的业务关键数据
它可以成为重要的文档,有助于推动整个企业对最重要的数据资产的协调。 它增强了数据团队对现有模型或功能进行更改和更新的信心,而不必担心破坏下游的关键内容。 当出现问题时,它可以帮助您更好地做出决策、提高速度并确定优先级。 允许您的团队将更多精力集中在高度关键的资产上,忽略一些不太重要的事情。
查看事件的重要受影响数据模型和仪表板的示例。来源:synq.io哪些数据对业务至关重要
由于反向 ETL 工具正在读取过时的数据模型,因此数以万计的客户可能会收到错误的电子邮件。 您向监管机构报告了不正确的数据,您的最高管理层可能要承担个人责任。 您的预测模型未运行,数百名客户支持员工无法在假期前获得下一个轮班时间表。
来源:synq.io识别您的关键业务仪表板
基于关键业务用例的重要性
未来三个月你的首要任务是什么? 您如何衡量您所在领域的成功? 过去一年中您遇到的最严重的问题是什么?
基于仪表板使用情况的重要性
来源:synq.io基于仪表板最高管理层使用情况的重要性
来源:synq.io识别您的关键业务数据模型
具有许多下游依赖项的数据模型
你可能已经知道这些是什么了。如果没有,您也可以使用清单。DBT在每次调用时作为工件的一部分生成的Json文件,以及每个节点的depends_on属性,以循环遍历所有模型并计算依赖于它们的模型的总数。
关键路径上的数据模型
业务关键型仪表板上游的所有数据模型都位于关键路径上。来源:synq.io一旦您完成了识别业务关键下游依赖关系和用例的艰苦工作,您就可以使用dbt中的公开来手动映射这些依赖关系,或者使用一个工具来自动连接。
关键资产上游的任何内容都应标记为关键或位于关键路径上。
如何保持关键数据模型定义的更新
使用预提交dbt 包中的check-model-tags强制每个数据模型都具有关键性标签 构建脚本或使用工具,自动将critical-path标签添加到业务关键资产上游的所有模型
定义关键性标签
您对如何以不同方式对待关键数据资产有何计划 如何在关键问题上保持一致的定义,以便每个人都达成共识
来源:synq.io第 1 层:机器学习系统使用数据模型来确定允许哪些用户注册您的产品 第 2 层:CMO 用于每周营销审核的仪表板 第 3 层:产品经理使用仪表板来跟踪每月的产品参与度
在哪里定义关键性
在创建数据资产的工具中定义关键性
models:- name: fct_ordersdescription: All ordersmeta:criticality: high
在 .yml 文件中定义关键性的示例
来源:synq.io定义数据目录中的关键性
标记关键数据。资料来源:secoda.co根据关键程度采取行动
第 1 层仪表板在投入生产之前需要代码审查员 第 1 层仪表板应遵循加载时间的特定性能指标,并具有一致的视觉布局 所有者应每月监控一级仪表板的使用情况
关键数据模型的测试或运行失败应在同一天内采取行动 有关关键数据模型的问题应发送给 PagerDuty(待命团队成员),以便快速采取行动 关键数据模型应该至少具有唯一且非空的测试以及所有者定义的
概括
要识别对业务至关重要的仪表板,请首先查看您的业务用例。然后考虑使用数据,例如用户数量或高管层中是否有人使用仪表板。 业务关键型数据模型通常具有许多下游依赖项和/或关键下游依赖项。 直接在创建数据资产的工具中或使用数据目录定义关键性。 明确您如何处理关键业务资产中的问题,并制定通过设计构建质量的程序。
原文作者:Mikkel Dengsøe 和 Lindsay Murphy
文章转载自大数据杂货铺,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




