
每天产生令人震惊的2.5 万亿字节数据,加上市场上有各种各样的在线数据分析工具,数据和分析的使用变得前所未有的容易。
然而,一切美好的事物都伴随着许多挑战,企业常常难以以正确的方式管理信息。通常,收集和使用的数据不完整或损坏,从而导致许多其他问题,对公司造成极大损害。进入数据质量管理。
数据质量管理是一组旨在保持高质量信息的实践。它贯穿从数据采集和高级数据处理的实施,到数据的有效分发。它还需要对您所拥有的信息进行管理监督。有效的 DQM 被认为对于任何一致的数据分析都至关重要,因为数据质量对于从信息中获得可操作的、更重要的是准确的见解至关重要。
您可以使用很多策略来提高信息质量。这些流程旨在成为数据开发的“瑞士军刀”,让您的组织做好准备应对数字时代数据的挑战,无论它们何时何地出现。在本文中,我们将详细介绍讨论 DQM 时所涉及的所有问题:为什么它很重要、如何衡量数据质量、良好质量管理的支柱以及一些数据质量控制技术。报告是有效 DQM 的一部分,我们还将介绍一些数据质量指标示例,您可以使用它们来评估您在这方面的工作。但首先,让我们定义一下数据质量到底是什么。
1.1.数据质量的定义是什么?
数据质量是指对您所拥有的信息相对于其目的及其服务于该目的的能力的评估。数据质量由不同因素定义,例如准确性、完整性、一致性或及时性,本文稍后将详细介绍这些因素。这种质量对于满足组织在运营、规划和决策方面的需求是必要的。
2.为什么需要数据质量管理?
虽然数字时代成功地促进了广泛的创新,但它也引发了所谓的“数据危机”——低质量数据。
如今,公司的大部分运营和战略决策都严重依赖数据,因此质量的重要性更加重要。事实上,低质量数据是先进数据和技术计划失败的主要原因,每年为美国企业带来970 万美元的损失(不包括世界其他国家的企业)。更一般地说,低质量的数据会影响生产力、利润和整体投资回报率。
我们稍后将讨论低质量数据的一些后果。然而,我们要确保不要陷入“质量陷阱”,因为 DQM 的最终目标不是创建关于什么是“高质量”数据的主观概念。不,它的最终目标是提高那些依赖数据的业务部门的投资回报率 (ROI)。与此配合,它还可以:
改进的决策过程:从客户关系管理到供应链管理,再到企业资源规划,有效的 DQM 的好处可以对组织的绩效产生连锁反应。借助可用的高质量数据,组织可以形成数据仓库,以检查趋势并制定面向未来的战略。在整个行业范围内,质量数据的积极投资回报率是众所周知的。埃森哲的一项大数据调查显示,92%的使用大数据进行管理的高管对结果感到满意,89%的人认为数据“非常”或“极其”重要,因为它将“像互联网一样彻底改变运营”做过”。
节省时间和金钱:正如您将在这篇富有洞察力的文章中看到的那样,使用劣质数据做出重要业务决策的后果不仅会导致在低效策略上浪费时间,还会导致更大的金钱和资源损失。考虑到这一点,对于公司来说最重要的是投资正确的流程、系统和工具,以确保其数据质量满足所需的标准。因此,企业不仅可以节省大量资金和资源,而且还可以根据准确的见解做出明智的决策而获得回报。
竞争优势:正如前面提到的,拥有优质数据的底线是提高组织所有领域的绩效。从客户关系到营销、销售和财务,在当今快节奏的世界中,能够利用自己的数据做出明智的决策是非常宝贵的。清楚地了解您应该遵循哪些步骤才能获得成功,这将导致获得明显的竞争优势,从而使组织从其他组织中脱颖而出。
现在您已经更清楚地了解了在组织中实施数据质量流程可以带来的好处,让我们更详细地探讨这个概念。
3.数据质量管理的 5 个支柱
现在您已经了解了高质量数据的重要性,并希望采取行动来巩固您的数据基础,让我们来看看 DQM 背后的技术以及支持它的 5 个支柱。
技术的效率取决于实施它的个人。我们可能在技术先进的商业社会中运作,但人类监督和流程实施尚未过时。因此,有几个角色需要填补,包括:
DQM 项目经理:项目经理的角色应由一位高层领导者担任,他负责对商业智能计划进行总体监督。他/她还应监督涉及数据范围、项目预算和计划实施的日常活动的管理。项目经理应领导质量数据和投资回报率的愿景。
组织变革经理:变革经理的工作正如其标题所暗示的那样:组织。他/她通过提供对先进数据技术解决方案的清晰度和洞察力来协助组织。由于使用仪表板软件经常突出质量问题,因此变更经理在数据质量可视化中发挥着重要作用。
业务/数据分析师:业务分析师的职责就是业务的“主要部分”。此人从组织的角度定义质量需求。然后将这些需求量化为用于获取和交付的数据模型。此人(或一组人)确保将数据质量背后的理论传达给开发团队。
3.2.数据分析
数据分析是 DQM 生命周期中的一个重要过程。它涉及:
1.详细审查数据
2.将数据与其自身的元数据进行比较和对比
3.运行统计模型
4.数据质量报告
启动此过程的目的是为了深入了解现有数据,并将其与质量目标进行比较。它帮助企业制定 DQM 流程的起点,并为如何提高信息质量设定标准。完整、准确的数据的数据质量分析指标对于这一步至关重要。准确的数据是寻找不成比例的数字,完整的数据是定义数据主体并确保所有数据点都是完整的。我们将在本文的第三部分中讨论它们。
3.3.定义数据质量
第三个支柱是质量本身。应根据业务目标和要求创建和定义“质量规则”。这些是数据必须遵守的业务/技术规则,才能被认为是可行的。
业务需求可能在这一支柱中占据主导地位,因为关键数据元素应取决于行业。质量规则的制定对于任何 DQM 流程的成功至关重要,因为这些规则将检测并防止受损数据影响整个集合的健康状况。
就像抗体检测和纠正我们体内的病毒一样,数据质量规则将纠正有价值数据之间的不一致。当与在线 BI 工具结合使用时,这些规则可以成为预测趋势和报告分析的关键。
数据质量报告是删除和记录所有受损数据的过程。这应该被设计为遵循数据规则执行的自然过程。一旦识别并捕获了异常,就应该将它们聚合起来,以便识别质量模式。
捕获的数据点应根据特定特征(例如,按规则、按日期、按来源等)进行建模和定义。一旦统计完这些数据,就可以将其连接到在线报告软件,以报告质量状态以及数据质量仪表板中存在的异常情况。如果可能的话,还应该实施自动化和“按需”技术解决方案,以便实时显示仪表板见解。
报告和监控是企业数据质量管理投资回报率的关键,因为它们可以随时实时了解数据状态。通过允许企业识别数据异常的位置和住所,数据专家团队可以开始制定补救流程策略。
了解从哪里开始主动进行数据调整将有助于企业更接近于挽回每年因低质量数据造成的 97 亿美元损失。
3.5.数据修复
数据修复是确定的两步过程:
1)修复数据的最佳方法
2)实施变革的最有效方式
数据修复最重要的方面是进行“根本原因”检查,以确定数据缺陷产生的原因、地点和方式。一旦实施了检查,就应该开始修复计划。
依赖于先前有缺陷的数据的数据流程可能需要重新启动,特别是当它们的功能面临风险或受到缺陷数据的损害时。这些流程可能包括报告、活动或财务文件。
这也是数据质量规则应该重新审视的点。审查过程将有助于确定规则是否需要调整或更新,并将有助于开始数据演变的过程。一旦数据被认为是高质量的,关键业务流程和功能应该更高效、更准确地运行,并具有更高的投资回报率和更低的成本。
4.数据质量管理最佳实践

通过我们上面介绍的 5 个支柱,我们还介绍了一些应遵循的技术和技巧,以确保流程成功。为了帮助您消化所有这些信息,我们汇总了您在评估数据时不应忘记的所有要点。通过遵循这些最佳实践,您应该能够让您的信息随时可供分析。
l确保数据治理:数据治理是一组流程、角色、标准和指标,可确保组织以高效、安全的方式使用数据。实施治理系统是确保定义数据质量管理角色和职责的基本步骤。
l让所有部门参与:正如我们之前提到的,在处理数据质量时需要有不同的角色和职责。其中一些角色包括数据质量经理、数据分析师等。也就是说,虽然必须需要专业人员,但也有必要让整个组织参与到这一过程中。
l定义数据术语表:作为治理计划的一部分,一个好的做法是生成数据术语表。这应该包含所有相关术语的集合,用于以可访问且易于导航的方式定义公司数据。通过这种方式,您可以确保对整个组织中使用的数据定义有一个共同的理解。
l找到质量问题的根本原因:如果您发现业务中的数据质量很差,没有必要将其全部扔掉。质量差的数据还可以提供见解,帮助您将来改进流程。一个好的做法是检查当前数据,找到质量问题的根源并修复它。这不仅可以帮助您为使用干净、高质量的数据奠定基础,还可以帮助您识别将来可以避免或预防的常见问题。
l投资自动化:由于人为错误的可能性很高,手动数据输入被认为是数据质量差的最常见原因之一。在需要许多人进行数据输入的公司中,这种威胁变得更大。为了避免这种情况发生,投资自动化工具来处理输入过程是一个很好的做法。这些工具可以根据您的规则和集成进行配置,并可以确保您的数据全面准确。
l定义 DQM KPI:就像任何其他分析过程一样,DQM 需要使用 KPI 来评估您工作的成功和绩效。在这种情况下,定义也与您的总体业务目标相关的质量 KPI 非常重要。此步骤是该过程的有害部分,我们将在文章的下一部分中详细介绍它。
l集成 DQM 和 BI:当我们谈论业务环境中的数据分析时,集成是流行语之一。实施 DQM 流程使各行业的公司能够执行改进的商业智能。也就是说,将 DQM 流程与BI 软件集成可以帮助自动化任务并确保全面做出更好的战略决策。
为了衡量数据质量,您显然需要数据质量指标。它们对于评估您在提高信息质量方面所做的努力也很关键。在质量管理的各种技术中,数据质量指标必须是一流的、明确定义的。这些指标涵盖质量的不同方面,包括完整性、唯一性、有效性、一致性、准确性和及时性。
虽然数据分析可能相当复杂,但所有主要 DQM 利益相关者都应该了解一些基本测量方法。数据质量指标对于为未来的分析提供最佳、最坚实的基础至关重要。这些指标还将帮助您跟踪质量改进工作的有效性,这当然是确保您走在正确轨道上所必需的。让我们回顾一下这六类指标并详细说明它们所包含的内容。
数据质量的评估,主要围绕着以下六个方面进行。
完整性将表明是否有足够的信息来得出结论。可以通过确定每个数据条目是否是“完整”数据条目来测量完整性。所有可用的数据输入字段必须完整,并且数据记录集不应缺少任何相关信息。
这个其实比较好理解,通俗上来讲,就是我们常说的数据全不全嘛。
但如何用指标来衡量呢,通常看一份数据的总记录数是否正常。比如成交记录是1万条,但数据表只有9000条,这就是不完整的。
当然了,再细一些,可以看到表中具体字段。比如总条数是1万,但是用户ID字段有2000是空的,这也是不完整的。
例如,您可以使用的一个简单的质量指标是数据集中的空值数量:在库存/仓储上下文中,这意味着项目的每一行都引用一个产品,并且每个项目都必须有一个产品标识符。在填写该产品标识符之前,订单项无效。然后,您应该更长时间地监控该指标,以减少它。
5.2.数据唯一性
唯一性也比较容易理解,就是没有重复的。
这个其实和数据完整性是相对的。完整性看的是数据少没少,数据唯一性看的是数据多没多。
还是上面的例子,比如真实成交1万条,但数据表有3000重复了,成了1.3万条成交记录,这就不符合数据唯一性的评估。
5.3.数据有效性
这个主要是看数据是否符合公司业务的真实情况。比如手机号字段,取值是32988,明显是脏数据。
这里列举了几个方面:
l代码值域约束:比如证件类型的代码值要包含在数据标准的公共代码中
l长度约束:比如约束身份证字段长度要等于18位
l取值范围约束:比如要求字段值不能是负数
l标志取值约束:比如要求字段取值只能是1、2、3
通过以上方面,可以衡量数据内容的质量是否达标
5.4.数据一致性
严格来说,一致性是指从不同数据集中提取的两个数据值不应相互冲突。然而,一致性并不自动意味着正确性。
数据一致性的含义,就是通过不同方式取出来的数据,不能是冲突的。这里强调的是多个表或者来源。只有多个对比,才有不一致的概念。
这其实经常是我们交叉验证时的内容,经常会说的一句话:“这数对不上啊!”
通常分为以下三个方面:
l等值一致性:一个核验对象的数据取值必须与另外一个或多个核验对象在一定规则下相等。比如,“进出口经营权许可证号”长度13位,后9位应该与“组织机构代码证”一致
l存在一致性:一个核验对象的数据值必须在另一个核验对象满足某一条件时存在。比如,“登录状态”是已登录,“登录日期”不能为空
l逻辑一致性:一个核验对象上的数值必须与另一个核验对象的数据值满足某种逻辑关系。比如,“支票起号”小于等于“支票止号”
5.5.数据准确性
指实时发生的业务交易或状态变化。准确性应该通过源文档(即来自业务交互)来衡量,但如果不可用,则通过独立性质的确认技术来衡量。它将指示数据是否没有重大错误。
衡量准确性的典型指标是数据与错误的比率,它跟踪相对于数据集的已知错误(例如丢失、不完整或冗余条目)的数量。当然,这个比率应该随着时间的推移而增加,证明数据的质量会变得更好。没有具体的数据与错误比率,因为它很大程度上取决于数据集的大小和性质 - 但当然越高越好。在下面的示例中,我们看到数据错误率略低于 95% 准确率的目标:

5.6.数据及时性
及时性对应于对信息的可用性和可访问性的期望。换句话说,它衡量的是预期数据与数据可供使用之间的时间。
评估及时性的一个指标是数据的价值实现时间。这对于衡量和优化这段时间至关重要,因为它对企业的成功有很多影响。获取有价值的数据信息的最佳时机始终是现在,因此越早访问该信息越好。
比如一份数据是统计离线T-1日的,结果都是第二天下午甚至第三天才能统计完,这种数据的应用价值就会大打折扣了。
无论您选择哪种方式来提高数据质量,您始终需要衡量您的努力的有效性。所有这些数据质量指标示例都可以很好地评估您的流程,因此不应将其排除在外。你评估得越多,你就能进步得越好。
6.什么是数据质量指标的示例?

在此处查找您可以使用的 5 个数据质量指标示例:
l数据与错误的比率:监控与整个数据集相比的已知数据错误的数量。
l空值数量:计算数据集中出现空字段的次数。
l数据实现价值的时间:评估您从数据集中获得见解所需的时间。还有其他因素影响它,但质量是它能够提高的主要原因之一。
l数据转换错误率:该指标跟踪数据转换操作失败的频率。
l数据存储成本:当您的存储成本上升而您使用的数据量保持不变或更糟的是减少时,这可能意味着存储的大部分数据质量太低而无法使用。
7.为什么需要数据质量控制:用例
让我们来看看高质量数据在营销中的好处。想象一下,您购买了一份清单,其中包含 10,000 个电子邮件、姓名、电话号码、企业和地址。然后,假设该列表中有 20% 是不准确的。这意味着您的列表中有 20% 的电子邮件地址、姓名、电话号码等有误。这如何转化为数字?
好吧,这样看:如果您针对此列表中的姓名开展 Facebook 广告活动,则由于这些虚假姓名条目,成本将比应有的高出 20%。如果您邮寄实体邮件,多达 20% 的信件甚至无法到达收件人手中。通过电话,您的销售代表将把更多的时间浪费在错误的号码或无法接听的号码上。对于电子邮件,您可能认为这没什么大不了的,但您的打开率和其他指标将根据您的“脏”列表而扭曲。所有这些成本加起来很快,导致美国公司每年面临 6000 亿美元的数据问题。
但是,让我们翻转一下情况:如果您的数据质量评估正确,那么您将能够:
l以比竞争对手更低的成本获得 Facebook 销售线索
l从您执行的每次直邮、电话或电子邮件活动中获得更多投资回报
l向最高管理层展示更好的结果,使您的广告支出更有可能增加
总而言之,在当今的数字世界中,拥有高质量的数据是区分领先者和“落伍者”的关键。
8.不良数据质量控制的后果
糟糕的数据质量控制可能会影响组织的各个方面,包括:
l您的营销活动的成本是多少以及效果如何
l您对客户的了解有多准确
l您能多快地将潜在客户转化为销售线索
l您做出业务决策的准确性如何
根据 Gartner 最新发布的信息,糟糕的数据质量每年平均给企业造成 1290 万美元的损失。这不仅会导致收入损失,还会导致决策失误,从而导致许多无形成本。
8.1.无形成本
我们无法直接检查无形成本。然而,我们可以在这方面运用我们的直觉和想象力。
假设您正在努力在公司创建数据驱动的文化。您正在带头开展这项工作,目前正在进行一个试点计划,以展示使用商业智能和分析制定数据驱动决策的投资回报率。如果您的数据质量不高,那么您在向其他人展示 BI 的优势时将会遇到很多问题。如果你“事后”指责数据质量,你的话听起来就像借口。
但是,如果您提前解决问题,并向同事明确高质量是绝对必要的,并且是从数据中获得投资回报率的基石,那么您将处于更好的位置。
也许您并不想让其他人相信数据驱动决策的重要性。也许您的公司已经在使用分析,但没有对数据质量控制进行尽职调查。在这种情况下,您可能会面临更大的打击:根据不准确的数据做出代价高昂的决策。
斯科特·洛(Scott Lowe)表示,作为大数据专家,也许最糟糕的决策是用错误的数据做出的:这最终可能会导致更大、更严重的问题。他宁愿听从自己的直觉做出决定,也不愿冒险用糟糕的数据做出决定。
例如,假设您有一个不正确的数据集,显示您当前的现金流状况良好。您感到乐观,从而大幅扩展业务。然后,一两个季度后,您遇到现金流问题,突然很难向您的供应商(甚至您的员工)付款。这种灾难性的情况可以通过更高质量的数据来预防。
9.低质量数据的 3 个来源

图片来源:TechTarget
我们刚刚了解了如何清理可能不准确的数据。然而,俗话说,一分预防胜于一分治疗。考虑到这一点,以下是低质量数据的一些起源,以便您可以随着时间的推移注意保持记录的准确性。请记住:保持数据的高质量并不是一项一次性工作。这是一个永无止境的持续过程。
当两家公司以某种方式联合起来时,他们的数据就会融入这种新的工作关系中。然而,就像两个有前次婚姻的孩子的人建立新的关系一样,事情有时会变得混乱。
例如,您的两家公司很可能甚至很可能使用完全不同的数据系统。也许你们中的一个人拥有旧数据库,而另一个人则更新了一些内容。或者您使用不同的方法来收集数据。甚至有可能关系中的一个合作伙伴只是拥有大量不正确的数据。
数据专家史蒂夫·霍伯曼举了一个合并造成困难的例子。他写道,当这两个数据库彼此不一致时,您必须建立一个赢家-输家矩阵,说明哪个数据库的条目被视为“真实”。正如您所预料的那样,这些矩阵可能会变得极其复杂:在某些时候,“赢家-输家矩阵非常复杂,以至于没有人真正了解正在发生的事情”,他说。事实上,程序员可以开始与业务分析师争论徒劳无益的问题以及“抗抑郁药的消费量正在上升”。
行动步骤:如果计划进行合并或收购,请确保让 IT 负责人坐到谈判桌前,以便在签署任何交易之前提前计划好此类问题。
对于非技术用户来说,可能很难理解从一种操作系统切换到另一种操作系统所固有的困难。直觉上,外行人会期望一切都被“设置”,以便最终用户能够轻松无痛地进行转换。这绝对不符合现实。
许多公司为其数据库使用所谓的“遗留系统”,这些系统已有几十年的历史,当不可避免的过渡时间到来时,有一大堆问题需要处理。这是由于数据系统本身的技术性质造成的。每个数据系统都由三个部分组成:
1)数据库(数据本身)
2)“业务规则”(解释数据的方式)
3)用户界面(数据呈现的方式)
这些不同的部分可能会在数据从一个系统转换到另一个系统的过程中带来不同的挑战。正如 Steve Hoberman 所写,关注的焦点是数据转换过程中的数据结构。但这是一种失败的方法,因为源和目标的业务规则层非常不同。尽管在技术上保持正确,但转换后的数据在实际用途中不可避免地不准确。
行动步骤:从旧系统过渡到新系统时,您的过渡团队是一个系统或另一个系统的专家是不够的。他们需要成为这两方面的专家,以确保过渡顺利进行。
9.3.来源#3:用户错误
这是一个可能永远不会消失的问题,因为人类总是会参与数据输入,并且人类会犯错误。人们经常会打错字,这一点必须加以考虑。在他的 TechTarget 帖子中,Steve Hoberman 讲述了他的团队如何负责“清理”数据库并纠正所有错误条目的故事。
您可能会认为数据清理专家是绝对正确的,对吧?嗯,事实并非如此。正如 Hoberman 先生所说,“仍有 3% 的更正输入错误。这是一个以数据质量为首要目标的项目!”
行动步骤:创建您公司使用的所有表格,并尽可能简单、直接地填写。虽然这不能完全防止用户错误,但至少可以减轻错误。
到目前为止,我们已经提供了数据质量管理框架的详细指南,包括其好处、后果、示例等。现在,您可能想知道,我该如何实现这一切?答案是使用大数据质量管理工具。有许多解决方案可以帮助您评估信息的准确性和一致性。为了帮助您选择合适的软件,我们在此列出了您在任何值得使用的 DQM 软件中都应该寻找的前 5 个功能。
l连接性:为了能够应用所有质量规则,DQM 软件应确保集成和连接性作为基础。这意味着能够轻松连接来自多个来源(例如内部、外部、云、本地等)的数据。
l分析:数据分析使用户能够识别和理解质量问题。工具应该能够以高效、快速的方式提供分析功能,并考虑 DQM 支柱。
l数据监控和可视化:为了能够评估数据的质量,有必要对其进行密切监控。因此,软件应使用在线仪表板形式的交互式数据可视化来提供监控功能。
l元数据管理:良好的数据质量控制始于元数据管理。这些功能提供了必要的文档和定义,以确保整个组织理解并正确使用数据。它回答了数据用户的人物、事件、时间、地点、原因和方式等问题。
l用户友好性和协作:任何需要在当今现代环境中使用数据的解决方案都应该是用户友好的并支持协作。正如本文中多次提到的,企业数据质量管理系统中有许多关键参与者,他们应该能够以简单而智能的方式共享关键定义、规范和任务。
11.结论
我们希望这篇文章为您提供了保持数据高质量所需的信息和工具。我们还希望您同意数据质量管理是让您的组织在当今数字市场中保持竞争力的关键流程。虽然维护高质量数据似乎确实很痛苦,但考虑到其他公司也觉得 DQM 是一个巨大的麻烦。因此,如果您的公司不遗余力地使其听起来不错,那么您将自动在市场中获得竞争优势。俗话说:“如果这件事很容易,那么每个人都会这么做。”
DQM 是创建高效业务仪表板的先决条件,它将帮助您制定决策并推动您的业务向前发展。请即可开始构建您自己的公司仪表板并从市场上最好的解决方案之一中受益。
原文链接:https://www.datapine.com/blog/data-quality-management-and-metrics/




