必须在清洁的环境中精确地努力达到精确的标准。外科医生擦洗,火箭科学家在洁净室工作, 数据科学家……好吧,我们尽力而为。

我们都听说过“垃圾进,垃圾出”的陈词滥调,所以我们 大部分时间都在 做工作中最乏味的部分:数据清理。不幸的是,无论我们多么努力地擦洗,糟糕的数据质量往往过于普遍和侵入性,无法快速淋浴。 

我们对 150 多个组织的数据堆栈的研究表明,环境中每 1,000 个表平均每年发生 70 起有影响力的数据事件。这些事件侵入了探索性数据分析;它们侵入模型训练和验证;并在部署后侵入模型的推理数据,造成漂移。

模型准确性不会从笔记本中的数据清理开始或结束,使用用于通知、训练和验证模型的几个表。它从 ETL 管道开始,从您选择要测量的内容以解决问题的那一刻开始。 

让我们演练一个半假设的场景,其中包含我们在野外看到的真实示例,以突出显示一些常见的故障点。然后,我们将讨论如何通过组织对高质量数据的承诺来避免它们。 

想象一下这个 

您是一名数据科学家,大摇大摆地致力于预测模型,以优化快速增长的公司的数字营销支出。经过认真的数据探索后,将一些数据集导入 Python 笔记本。 

探索性数据分析

由于您的公司对仪表板非常疯狂,而且数据工程团队比以往任何时候都更容易通过管道传输数据以适应临时请求,因此发现具有挑战性。数据仓库一团糟,没有语义意义。 

如果没有明确的数据 沿袭,您就浪费了时间合并和清理数据,因为您没有注意到下游表已经合并了更多数据源。这几乎和你注意到你几乎遗漏了一个关键数据集时一样刺痛,但你安慰自己,即使是伟人也会时 不时地犯这些错误

模型设计

您会看到LinkedIn广告点击数据具有 0.1% 的空值,因此您将该值归因于功能列的中位数。这在您的笔记本中是整洁的,但是在模型部署之后,LinkedIn和营销自动化平台之间的集成没有重新授权。生产数据集中的 NULLS 现已跃升至 90%,导致这种插补更加频繁,并且基于更小、更不准确的样本 不幸的是,他们在离开公司之前在数千张临时桌子上构建了模型。它坏了,自动驾驶,公司损失了数百万美元,但你不知道。 

An expired marketo authorization is one reason data cleaning isn't enough for ML model accuracy
不重新授权数据源之间的过期连接是数据停机的常见原因。图片由Marketo提供。

模型训练和验证

您仔细分离出维持集以避免污染,并确保用于验证模型的数据不会与训练数据重叠。您不知道,训练数据包含一个表,其中包含汇总的访问者网站数据,其中包含一个月未更新的列。 

事实证明,营销运营团队升级到 Google Analytics 4 是为了提前 2023 年 7 月的最后期限,这改变了数据架构。这导致自动化 ETL 管道启动一个全新的表,从而破坏聚合表的依赖项。因此,您的训练集不包含上个月的数据,其中包括由于宏观经济环境变化而导致浏览行为和购买模式的统计显着变化。 

In both digital marketing and in data, the only constant is change: in this case, a changing schema messing with the pipelines on which your model depends.在数字营销和数据中,唯一不变的是变化:在这种情况下,不断变化的模式扰乱了模型所依赖的管道。

模型部署

您的模型已部署,并且静默地遭受重大漂移。Facebook将他们交付数据的方式改为每12小时一次,而不是每24小时一次。您团队的 ETL 设置为每天只收集一次数据,因此这意味着突然之间,发送的广告系列数据中有一半没有得到处理或传递到下游, 从而使他们的新用户指标从“付费”转向“自然”。

由于您的模型不断使用新数据进行训练,因此类的这种转变会降低模型的性能,因为它开始过度拟合自然用户获取。由于这发生在数据清理和模型构建之后,因此您不知道需要纠正这种不平衡。 Model Deployment

图片来自 数据 供应链中的问题可能会让数据科学家头疼。图片由Chad Sanderson提供。


数据的目标及其组织很重要,因为它会影响您的探索性数据分析。但是,数据所经历的旅程与每条路径为模型引入一组不同的风险一样重要。

除了在数据集级别考虑传统的 数据质量 6 个维度(准确性、完整性、一致性、及时性、有效性和唯一性)之外,现在是时候开始在管道级别考虑数据新鲜度、数量、模式和分布异常了。 

您可以通过构建自己的异常检测器(此处是一个由三部分组成的系列,展示了如何操作)或利用商业数据可观测性解决方案来实现此目的。 

Relative Frequency

监视管道引入的数据量中的异常可以确保模型始终引入以高精度预测结果所需的最少样本数。

Gartner 2022 年数据管理炒作周期

商业解决方案的优势在于,您无需不断更新和调整自定义监控阈值,而是可以在添加所有数据资产的那一刻依靠其覆盖范围的基线,同时还能够在必要时添加自定义监控规则。 

例如,通过监视数据中值的分布,您可以快速查看数据集的这些范围,而不必手动执行多次探索和分析来回答历史唯一百分比等问题。这些监视器还可以提醒您每个数据类比例的突然变化,正如我们在Facebook示例中所看到的那样。

监视管道引入的数据量中的异常可以确保模型始终引入以高精度预测结果所需的最少样本数。

数据可观测性解决方案还包括数据沿袭和轻型编目功能,这些功能可以通过显示对象之间的关系和识别相关事件来帮助发现和探索性数据分析过程。

Data lineage within a data observability platform showing table dependencies.数据可观测性平台中的数据世系显示表依赖项。

借助干净的数据环境,您可以将重点重新用于创建精确、可信的 ML 模型,从而推动业务价值。

本文是与蒙特卡洛的数据科学家Ryan Kearns和蒙特卡洛数据科学负责人Elor Arieli博士共同撰写的。

Comments are closed.