怎样把数据质量测量理论付诸行动?
据调查,大多数企业希望提高投资的行业都是数据质量,这是未来最受欢迎的投资领域。
这有充分的理由。首先,数据质量差会导致对数据的信任度下降和决策错误。其次,越来越多的企业投资于业务关键系统,比如数据仓库直接支持的。 ML 或者对用户进行分析,而且这些系统没有错误的空间。
但是,大多数企业对数据质量没有客观的评估方法,这使他们无法识别问题区域或跟踪一段时间内的改善状况。
我们在本文中讨论过。
测量质量时应注意的问题?
以数据资产为核心的方式
以数据产品为核心的方法
将质量洞察与定量指标相结合。
把洞察付诸实践
您在玩什么游戏?
假设你和大多数人一样,你不会为了好玩而测量数据质量。取而代之的是,你有一个明确的项目要求,例如,
•让分布式团队通过强调问题区域来掌握数据质量;•在利益相关者多次询问数据质量被视为较低之后,向他们展示自信;•向监管部门说明你掌握了数据质量的主导权;•与数据产品的工程师分享你的承诺。 SLA 系统正常运行时间。
在进行测量数据质量之前,你应该知道你在玩什么游戏。。获得可靠性指标将是一项投资,一旦你发现问题区域,更多的投资等着你,以更好的数据质量控制来改变这些问题。
一 测量质量时应注意的问题?
为了让每个人都能以一致的方式对待它,制定了衡量数据质量的指导方针。尽管这可能取决于业务状况,但是我们发现这些指导原则非常有效。
指标——测量覆盖率和正常运行时间
行动——可以操作,后续步骤清晰明确
细分——可以根据关键层次进行细分
用例——考虑数据的使用方法
趋势——时间的流逝是一致的,可以衡量。
在许多情况下,需要根据数据的使用方法来指定预期。一般来说,建议这样做,因为你可能不希望所有资产都遵循同样的标准。记住哪些数据对业务特别重要,哪些数据会被公开(例如,在仪表板上),哪些资产应该有 SLA(例如,如果数据没有按时到达,就会产生下游的影响),可以帮助你评估你需要什么样的检查,然后衡量哪些是重要的。
示例 – 每一表的质量标准和元数据
二 数据质量以数据资产为核心进行测量
资产等级监控数据质量非常直观:正常运行时间和覆盖率可以计算在表等级,并且可以根据元数据维度进行细分(如所有者领域、关键性和随时间推移)。
这样可以俯瞰数据堆栈,了解哪些领域比较薄弱,哪些领域比较强,以及这与预期有什么关系。
为了获得最完整的信息,我们建议您考虑两个指标。
正常工作时间——每一次运行,当前控制措施成功通过的百分比是多少?
覆盖率——有多少比例的数据资产已经实施了必要的控制?
将质量标准分组到语义相似的领域,以更符合业务用例的方式探讨数据质量。
(1) 时效性– 是否根据与业务商定的数据? SLA 保持最新和最新的状态,
(2) 准确性– 是否可以使用所有数据,
(3) 完整性– 语义上的数据是否正确,
(4) 一致性– 可用数据在系统结构中是否一致。
同时,我们也建议明确哪些情况是“差”、“好”或“好”。例如,任何低于每个人的例子 50% 所有的分数都被标记为“差”,这意味着需要付诸行动。
数据质量明细表-正常运行时间和覆盖范围,跨质量维度和随时间变化。
这一洞察水平可以让你开始询问数据质量问题,例如,
虽然我们对空值检查有很好的覆盖作用,但是我们应该研究哪些检查失败了,是否可以修复,或者是否应该删除。
为什么我们肯定测试的正常运行时间明显减少?
鉴于覆盖率低,我们在唯一性检测中的高正常运行时间是否会给我们一种虚假的安全感?
假设你已经指定了域所有者等元数据。在这种情况下,你可以对数据进行细分,以检查准确性分数的下降通常由数据仓库团队拥有的表的肯定检测驱动。我想你现在知道找谁了。
三 数据质量测量方法以数据产品为核心。
虽然上面提到的以数据资产为核心的方法有优势——它很容易理解和实施,但是推理它有一个主要的缺点。
本质上,以数据资产为核心的质量标准与数据用例无关。
也就是说,你的时效性分数可以达到 95%。但是,如果包含关键广告费用管道的话 ML 每周运行前预测数据模型失败,那么你的情况就不会好转,你的情况也不会好转。 CTO 会生气地来找你,要求你控制参数质量。
以数据产品为核心,我们提出了一种替代数据质量的方法。
数据产品是由曝光链接等一组相关资产。 DBT 支持营销自动化的模型 CLTV 使用表格或模型 BI 在工具中选择一组仪表板。也就是说,数据产品与其业务用例密切相关。
数据产品类似于汽车仪表盘上的警示灯。他们不会马上告诉你任何关于底层指标的信息(例如,油量是否低于 10%),而是告诉你商品存在问题,问题的重要性,以及你应该如何调查。
你可以在上面的例子中立即看到业务。 KPI 上游资产数据产品问题。
你可以在考虑数据产品内部和上游问题的同时,跟踪数据产品的健康状况。这创造了一种以最终用户为中心的更直观的数据健康测量方法。有了这些信息,你可以自信地告诉你的首席财务官和你的业务。 KPI 过去仪表板存在可靠性问题, 15 天内停机时间为 6 天。
当数据产品的稳定性出现问题时,你可以对不同的数据控制进行深入的研究,找出根本原因。
四 结合定量指标和定性观点
尽管数据质量检查覆盖率高,错误少,但你可能仍然存在盲点。你可以通过将质量标准与相关数据用户体验的定性观点和指标相结合来解决这个问题。
利益相关者的调查将定量指标与利益相关者调查相结合,是发现改进领域的好方法。要求他们提供诚实匿名的反馈,包括自助服务的满意度、仪表板的质量以及他们所在地区是否有足够的数据人员。

对数据事件进行宣布和监控数据队对事件并不陌生。但是处理数据问题通常没有标准的方法,许多团队只是偶尔宣布数据事件。
不像自动数据质量标准,事件是手动声明和分类的(例如 P1、P2、P3)。记录历史事件是一种很好的方法,可以补充数据质量标准,向利益相关者透明。
监控数据的可用性虽然严格来说不是数据质量的衡量标准,但数据资产的可用性往往被忽视。这可能会导致终端用户感觉不好,比如对同一个指标有多个定义,或者堆放臃肿,包括上百个未使用的数据模型和仪表板。为了克服这个问题,我们建议您使用可用性指标来补充您的质量标准,例如
参与性成绩——在数据模型上,仪表板的用户数量和下游依赖项以及查询的总数
可用性评分– 列和表中包含描述的百分比
这是维护健康堆栈的重要组成部分,可以帮助您实施淘汰未使用的数据模型或仪表板等计划。
五 把洞察付诸实践
你经常想把监控数据质量过程中发现的洞察付诸行动。无论是为了改善一个特定的领域,还是和利益相关者分享你的改进方法,还是别的什么。
虽然没有一劳永逸的解决办法,但是我们已经看到这些方法更有效。
自动通过每周电子邮件摘要追究责任——成为一个必须告诉他们数据质量差的人并不总是一件有趣的事情。安排每周自动发送一封电子邮件,包括随时间的推移和每个业主领域的质量分数。这是一种很好的追究责任的方式,不需要一个人指责。
如果人们看到自己的团队得分低于同行,他们就会引起注意。
认真对待元数据— 我们可以看到,数据质量计划失败最常见的原因是每个人都对数据质量负责,所以没有人感到负责。只有通过强制执行元数据(如关键和所有者或领域),人们才能对其领域的数据质量负责。
警惕“破窗理论”——“破窗理论”可以追溯到犯罪。它认为,如果院子里的一扇窗户被打碎,院子里的其他一切都会开始崩溃。如果居民开始看到一切都崩溃了,他们就不会再关注其他事情了。我们可以将同样的隐喻应用到数据质量上。
如果有很多测试失败,这通常是信噪比过低或测试实施位置不正确的前兆。失败的数据检查不能搁置。相反,解决这类问题并删除不再需要的数据检查,应该留出特殊的时间(例如,每隔一周的“修复星期五”)。
建立数据质量操作手册– 如果您的团队规模较大,请包括明确的步骤来处理每个数据质量维度,以便每个人都能清楚地了解它。例如,如果时效性成绩较低,可以推荐一些步骤,例如添加数据库新鲜度检查或设置新鲜度监控器。
数据质量评分的行动不一定就此结束。我们已经看到最好的团队进一步将质量评分嵌入关键仪表板,向利益相关者解释数据是否值得信赖,并设置要求,即业务关键流程中使用的数据资产必须在公开之前获得“良好”的评分。
本文来自微信微信官方账号“数据驱动智能”(ID:Data作者:晓晓,36氪经授权发布,_0101)。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




