暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

控制数据质量、准确性和一致性的策略

原创 eternity 2022-10-12
711

介绍

2006年,数学家兼企业家克莱夫·汉比创造了一个短语,“数据是新的石油”。这一比较的主要目的是强调,尽管数据非常有用,但必须提取、处理和提炼数据,才能实现其全部价值。十五年后的今天,积累数据比以往任何时候都容易,但许多企业仍然面临着确保所捕获的数据完整和正确的挑战。

数据质量的影响

在公司数据之旅的开始,只需将应用程序数据加载到数据库中即可提供有价值的信息。然而,数据驱动决策的目的是减少不确定性。如果数据质量低,这可能会带来额外的风险并导致负面结果。根据Gartner 2021的一项调查,具体数字来看,数据质量问题每年给组织带来约1290万美元的成本。

除了决策之外,反应性地检测和修复数据问题还需要大量的开发人员资源。具体而言,2022年韦克菲尔德研究调查(Wakefield Research Survey)对300名数据专业人士进行了调查,结果表明,在数据团队发现错误数据之前,业务利益相关者往往会受到错误数据的影响。此外,调查还概述了数据团队每月花费793小时解决数据质量相关问题。这在两个维度上都是负的。首先,团队花费大量精力来解决问题。其次,利益相关者对所产生数据的质量失去了信任。

此外,有许多不同的方法可以主动管理数据质量。本简介的其余部分概述了确保数据始终符合标准并符合预期语义的关键技术和方法。此外,这些策略可确保尽早检测到大多数错误,并快速了解任何延迟检测到的问题的范围。

数据管道合同

定义数据集的核心需求可以为该数据集的生产者和消费者带来清晰的认识。此数据应该何时到达?它应该有多新?对列边界有什么期望吗?是否需要与数据仓库中的其他表保持一致?

这些只是应该探讨的几个问题,以便在数据发起团队和下游消费者之间保持预期一致。简而言之,更好的数据质量实践的第一步是声明数据集对于特定用例应该是什么样子

重要的是,围绕一组特定表格的严格程度应取决于审计执行成本和这些主题提供的分析价值。例如,与存储在分布式对象存储的数据池中的探索性数据集相比,流入昂贵、高性能数据库以用于监管报告的数据需要更多的质量保证。

数据可观察性

更好的数据质量实践之旅始于关注个人工作。然而,在改进数据治理时,也可以利用用于降低业务决策风险的类似技术。不是只关注单个作业,而是使用基于系统的持续方法来提供必要的上下文。一个全面的跨组织战略将暴露出在寻找单一工作时不明显的问题。

尤其是,数据可观察性这个术语强调了对数据系统健康状况的全面概述。更全面的方法将准备状态从被动转变为主动。积极主动的立场限制了引入错误时所需的补救范围,也减少了数据工程师跟踪特定故障来源所花费的时间。

什么是数据质量?

在制定数据质量计划的方法之前,定义讨论数据质量时的确切含义很有帮助。本节将澄清术语并提供示例,使术语“数据质量”更加具体。简单地说,数据质量规定了生产者和消费者同意数据集必须符合的属性,以推动准确、及时的下游分析。

数据质量作为合同

上述要求的结合构成了数据管道各方之间的合同。这可能表现为生产者明确执行,也可能是用户的一组隐含期望。为了进一步阐明这种关系,下面概述了四种类型的数据标准:

  • 正确性是指确保数据的列值符合预期的域。它本质上是在回答这个问题:当应用业务计算时,数据是否会产生正确的答案?

  • 完整性检查确保数据包含给定数据集的所有预期内容。预期的数据量到达了吗?所有的列都填充了必要的信息吗?

  • 根据用法的不同,一致性可能有几种不同的含义。在本例中,它重点关注表中的数据是否与生态系统中其他相关表中存在的数据相匹配。

  • 及时性是关键。一些分析要求数据在生成数据的事件发生后的特定时间段内保持最新。

共享对数据集语义的理解

一个关键目标是使数据源和下游依赖项之间的期望保持一致。数据质量是这些协议的编纂。为了成功实施,应该将所有权推给理解力和参考框架最好的团队。

度量定义所有权

通常,产品团队对其数据将如何用于下游分析没有强烈的直觉。因此,他们不能是数据质量度量定义的唯一所有者。必须就应用程序可能产生的内容以及房地产利益相关者需要的报告进行协商,以创建可操作的结果。

生产者约束和消费者要求

通常,生产者从其应用程序中为完整和正确的数据集定义规则。生产商面临的典型问题如下:

  • 给定特定作业的历史行计数,是否有合理的数据量?

  • 是否按预期填充了所有列值?(例如,没有意外的空值)

  • 列值是否属于预期的域?

  • 数据是否以适当的节奏提交?

image.png

消费者的需求与数据的实际使用紧密耦合。典型问题如下:

  • 完整的数据是否及时到达以发布报告?

  • 列值在事实和维度之间是否具有引用完整性?

  • 业务计算结果是否在预期范围内?

促进数据标准的框架

数据质量框架成功地提供了数据质量的系统方法。全面的方法指导数据工程师走向最佳实践,并确保在整个生态系统中始终应用严格的方法。

审计

数据审核是数据标准框架的一个核心部分,它公开了关于数据集是否符合约定属性的低级信息。有几种审计类型和方法可供应用。

审计类型

以下是常见数据质量审核的简要概述:

  • 范围内的行计数

  • 范围内列的NULL计数

  • 域内的列值

  • 参考完整性检查

  • 列值之间的关系

  • 总和产生非零值

此外,可以定义为审计的内容有无数种可能,但它们都可以归结为回答这个问题:内容是否与生产者打算发送的内容和消费者期望接收的内容相匹配?在创建审计时,数据所有者必须意识到收集审计的成本与通过检查所带来的信心增加之间的权衡。

审核也可以是阻塞性的或非阻塞性的。阻塞审核阻止失败的数据管道继续进行,直到应用了更正。相反,非阻塞审计提醒管道所有者发生故障,并允许管道继续运行。理想情况下,每个使用者将确定针对其特定用例的阻塞/非阻塞审计。探索性用例甚至可以轻松地针对尚未审核的数据执行,因为它们没有质量保证。

写入审核发布

写入审核发布(WAP)是一种模式,其中所有数据首先写入数据库中的暂存位置,并且必须通过所有阻止审核,然后提交才能对读者可见。通常,这是通过数据库中的特殊功能或交换表或视图来实现的。

image.png

具体来说,WAP确保不存在消费者无意读取尚未验证的数据的竞争条件。必须采取主动行动来读取未经审计的数据,这必须是读者有意识的决定。

综合审计

一些数据库引擎支持的WAP变体是集成审计的概念。作业写入数据可以指定预期的列值或值范围。然后,引擎将验证正在写入的所有行是否符合这些期望,否则写入将失败。

补救策略

当错误引入系统时会发生什么?根据导言中提到的2022年韦克菲尔德研究调查,大多数受访者表示,检测数据问题需要四个或更多小时。此外,超过一半的人回答说,补救平均需要9个小时。稳健数据质量策略的目标是减少这两个指标。

问题检测

首先,在数据管道的依赖关系图中进行全面审核可以减少识别错误数据之前的时间。在引入时进行检测可以保证腐败的范围是有限的。此外,发现问题的团队更有可能制定必要的修复措施来修复管道。相关作业将对其接收的数据符合预期抱有很高的信心,并且可以进一步减少所需的验证范围。

测量影响

一旦检测到问题,特定的审核失败将使调查工程师有足够的洞察力开始调试故障。这与涉众发现错误的场景形成对比。在这种情况下,必须进行调查,以跟踪依赖关系图上向后的作业流。由于调试前必须评估的作业范围增加,因此此调查必然会增加解决问题的时间。

数据集来源和世系

沿袭是指依赖关系图中给定执行上游的源节点集。通过调试数据问题,如果有强大的工具来了解错误数据集的来源,则可以节省大量时间。了解可能引入错误的位置可以减少搜索空间,从而使数据工程师能够集中精力进行调试。

image.png

此外,当事后检测到问题时,沿袭工具有助于评估受数据故障影响的作业集。如果没有这样的工具,手动搜索依赖项并发现所有受影响的操作将耗费大量人力。

跟踪

建立信任需要有兑现承诺的历史。随着时间的推移,证明对承诺的遵守会让消费者对过程的产品充满信心。数据质量,就像其他相关的公司关键绩效指标一样,受益于认真的收集和审查。

随时间推移测量质量

随着时间的推移,跟踪数据质量指标使组织能够指导资源并改进影响最大的领域。是否有某些用例一直未能通过审核?数据通常会达到服务级别目标吗?如果这些问题得到了肯定的回答,这表明责任团队和上游团队之间必须进行更深入的讨论。如果无法遵守,则必须重新评估数据合同。

与有效用例相关的关键指标

审计必须与组织的基本事实有明确的联系。这确保了将重点放在与组织数据健康的真实、可操作方面直接相关的质量指标上。在这种情况下,审计的价值是可以直接测量的,并且与其支持的业务计算值一一对应。

结论

企业越来越多地利用数据来改进其组织决策。根据2021 NewVantage的一项调查,令人震惊的是97%的受访者表示对数据倡议进行了投资。数据质量的高标准在将数据用作决策输入时建立了信任并减少了不确定性。

数据质量框架在所有流程中实施一致的方法。自动和一致应用的工具减少了提供足够审计覆盖所需的工程时间。高覆盖率会导致问题在管道早期被发现,并改进补救措施。减少错误影响的数量和范围可以建立与业务利益相关者的信任。最后,构建成功的数据驱动文化需要工程团队和业务团队之间的高度信任。

原文标题:Strategies for Governing Data Quality, Accuracy, and Consistency
原文作者:Ted Gooch
原文链接:https://dzone.com/articles/strategies-for-governing-data-quality-accuracy-and

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论