暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

如何识别您的业务关键数据

大数据杂货铺 2023-09-22
142

在这篇文章中,我们将研究

  • 为什么您应该识别您的关键数据资产
  • 如何识别关键仪表板和数据模型
  • 创建关键数据正常运行的文化

为什么您应该识别您的业务关键数据

当您规划出业务关键型资产时,您可以在整个堆栈中获得端到端概览,其中显示哪些数据模型或仪表板对业务至关重要、它们的使用位置以及它们的最新状态。
这在很多方面都非常有用:
  • 它可以成为重要的文档,有助于推动整个企业对最重要的数据资产的协调。
  • 它增强了数据团队对现有模型或功能进行更改和更新的信心,而不必担心破坏下游的关键内容。
  • 当出现问题时,它可以帮助您更好地做出决策、提高速度并确定优先级。
  • 允许您的团队将更多精力集中在高度关键的资产上,忽略一些不太重要的事情。
查看事件的重要受影响数据模型和仪表板的示例。来源:synq.io
在本文中,我们将了解如何识别关键业务数据模型和仪表板。您可以将大部分相同的原则应用于对您的业务可能至关重要的其他类型的数据资产。

哪些数据对业务至关重要

用于决策的数据很重要,如果数据不正确,可能会导致错误的决策,并且随着时间的推移,人们会失去对数据的信任。但数据转发业务拥有真正至关重要的数据。如果这些数据是错误的或陈旧的,那么你就会陷入焦灼,如果不修复它,就会立即产生业务影响,例如……
  • 由于反向 ETL 工具正在读取过时的数据模型,因此数以万计的客户可能会收到错误的电子邮件。
  • 您向监管机构报告了不正确的数据,您的最高管理层可能要承担个人责任。
  • 您的预测模型未运行,数百名客户支持员工无法在假期前获得下一个轮班时间表。
来源:synq.io
规划这些用例需要深入了解公司的运作方式、对利益相关者来说最重要的是什么,以及问题的潜在影响是什么。

识别您的关键业务仪表板

Looker 在预构建的探索中公开有关内容使用情况的元数据,您可以使用自己的数据来丰富这些元数据使其更有用。在以下示例中,我们将使用 Looker,但大多数现代 BI 工具都有不同形式的使用情况报告(Lightdash 内置了使用情况分析,Tableau Cloud 提供了管理洞察,Mode 的发现数据库提供了对使用情况数据的访问,仅列举几个)。

基于关键业务用例的重要性

当您与企业领导交谈时,您可以提出以下问题:
  • 未来三个月你的首要任务是什么?
  • 您如何衡量您所在领域的成功?
  • 过去一年中您遇到的最严重的问题是什么?
您的业务领导者可能不知道圣诞节期间平均客户支持响应时间从 2 小时跃升至 24 小时的原因是由于过时的上游数据的预测错误,但他们会向您描述烦恼的经历。如果您能够规划出最关键的操作和工作流程并了解数据的使用方式,您将开始发现真正的业务关键数据。

基于仪表板使用情况的重要性

最明显重要的仪表板是公司每个人都使用的仪表板。您可能已经了解其中的大多数,例如“公司范围的 KPI”、“产品使用仪表板”或“客户服务指标”。但有时您会惊讶地发现数十人正在依赖您不知道存在的仪表板。
来源:synq.io
在大多数情况下,您应该过滤最近的使用情况,不包括六个月前有大量用户但上个月没有使用的仪表板。但也有例外,例如每三个月才使用一次的季度 OKR 仪表板。

基于仪表板最高管理层使用情况的重要性

无论喜欢与否,如果您的首席执行官定期使用仪表板,那么即使只有少数其他用户,这也很重要。在最坏的情况下,您甚至会发现一名公司高管几个月来一直在使用包含错误数据的仪表板,而您根本不知道该仪表板的存在。
“我们发现我们的首席执行官认真地查看每日发送的包含收入报告的电子邮件,但它被错误地过滤为包含特定部分,因此它与公司 KPI 仪表板不匹配。” ——加拿大医疗保健初创公司
如果您有员工记录系统,您也许能够轻松获取人员职称的标识符,并以此丰富您的使用数据。如果没有,您可以维护这些的手动映射,并在执行团队发生变化时更新它们。
来源:synq.io
虽然按资历使用与重要性高度相关,但您的首要任务应该是规划关键业务用例。例如,一家较大的金融科技公司有一个仪表板,供监管报告主管用来与监管机构共享关键信息。对于首席执行官来说,这些数据的准确性比他们每天查看的仪表板更重要。

识别您的关键业务数据模型

由于许多 dbt 项目超过数百或数千个数据模型,因此了解哪些模型对业务至关重要非常重要,这样您就知道何时应该优先考虑运行或测试失败,或者构建额外的稳健测试。

具有许多下游依赖项的数据模型

您可能有一组数据模型,如果它们损坏,其他所有内容都会被延迟或受到影响。这些通常是其他一切都依赖的模型,例如usersorderstransactions

你可能已经知道这些是什么了。如果没有,您也可以使用清单。DBT在每次调用时作为工件的一部分生成的Json文件,以及每个节点的depends_on属性,以循环遍历所有模型并计算依赖于它们的模型的总数。

在大多数情况下,您会发现少数模型具有过多的依赖项。这些应该被标记为关键。

关键路径上的数据模型

数据模型本身很少是关键的,但最常见的是因为其下游依赖性的重要性,例如用于向网站上的用户提供建议的重要仪表板或机器学习模型。
业务关键型仪表板上游的所有数据模型都位于关键路径上。来源:synq.io

一旦您完成了识别业务关键下游依赖关系和用例的艰苦工作,您就可以使用dbt中的公开来手动映射这些依赖关系,或者使用一个工具来自动连接。

关键资产上游的任何内容都应标记为关键或位于关键路径上。

如何保持关键数据模型定义的更新

围绕标记关键数据模型尽可能实现自动化。例如:
  • 使用预提交dbt 包中的check-model-tags强制每个数据模型都具有关键性标签
  • 构建脚本或使用工具,自动将critical-path标签添加到业务关键资产上游的所有模型

定义关键性标签

对于如何定义关键性没有一个正确的答案,但您应该问自己两个问题
  • 您对如何以不同方式对待关键数据资产有何计划
  • 如何在关键问题上保持一致的定义,以便每个人都达成共识
大多数公司使用分层方法(例如铜牌、银牌、金牌)或二元方法(例如关键、非关键)。两种选择都可以,最佳解决方案取决于您的情况。
来源:synq.io
您应该在如何定义关键性方面保持一致,将其写成新加入者培训的一部分,并避免延迟这一点。例如,分层的定义可以是:
  • 第 1 层:机器学习系统使用数据模型来确定允许哪些用户注册您的产品
  • 第 2 层:CMO 用于每周营销审核的仪表板
  • 第 3 层:产品经理使用仪表板来跟踪每月的产品参与度
如果您没有持续更新和标记您的资产,则会导致缺乏信任并假设您不能依赖定义。

在哪里定义关键性

没有一个合适的地方可以定义关键性,但最常见的做法是在创建数据资产的工具中或在数据目录中(例如 Secoda)。

在创建数据资产的工具中定义关键性

在 dbt 中,您可以将关键性定义与数据模型定义一起保存在 .yml 文件中。这有几个优点,例如能够在合并 PR 时增强关键性,或者轻松地跨数据目录或可观察性工具等工具传递此信息。
    models:
    - name: fct_orders
    description: All orders
    meta:
    criticality: high

    在 .yml 文件中定义关键性的示例

    在 BI 工具中,使其对每个人都透明的一个选项是用“ Tier 1 ”等标记仪表板的标题,以表明它很重要。通常可以提取这些数据并在其他工具中使用。
    来源:synq.io

    定义数据目录中的关键性

    在数据目录中,您可以轻松访问公司的所有数据,并通过在堆栈中搜索来找到常见问题的答案,从而更轻松地协调指标和模型
    标记关键数据。资料来源:secoda.co

    根据关键程度采取行动

    只有当您采取不同的行动时,映射您的关键业务资产才会获得回报。以下是一些通过设计打造质量的流程。
    仪表板:
    • 第 1 层仪表板在投入生产之前需要代码审查员
    • 第 1 层仪表板应遵循加载时间的特定性能指标,并具有一致的视觉布局
    • 所有者应每月监控一级仪表板的使用情况
    数据模型:
    • 关键数据模型的测试或运行失败应在同一天内采取行动
    • 有关关键数据模型的问题应发送给 PagerDuty(待命团队成员),以便快速采取行动
    • 关键数据模型应该至少具有唯一且非空的测试以及所有者定义的

    概括

    如果您确定并规划了业务关键型数据资产,您就可以在重要问题上更快地采取行动,并有意识地构建高质量数据资产。
    • 要识别对业务至关重要的仪表板,请首先查看您的业务用例。然后考虑使用数据,例如用户数量或高管层中是否有人使用仪表板。
    • 业务关键型数据模型通常具有许多下游依赖项和/或关键下游依赖项。
    • 直接在创建数据资产的工具中或使用数据目录定义关键性。
    • 明确您如何处理关键业务资产中的问题,并制定通过设计构建质量的程序。

    原文作者:Mikkel Dengsøe 和 Lindsay Murphy

    文章转载自大数据杂货铺,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

    评论