apothecary-in-mask-during-plague

M’数据

让我们玩一个快速的益智游戏。

问题:为公司命名。

线索 1:这家公司与亚马逊、苹果和谷歌一起,是全球四大科技公司之一。

线索 2:它在2004年萌芽。

线索 3:截至2018年,该公司全球收入为558亿美元。

那应该是小蛋糕!(我没有给你的礼物,虽然:/)。

答案:脸谱网 .

除了这些关于Facebook的众所周知的事实,我想带你回到几年。

2004年,马克·祖克伯格和他的四个哈佛大学朋友创立了Facebook。两年过去了,团队竭尽全力发展他们的公司。2006 年, Zuckerburg 聘请了第一位数据科学家——杰夫·哈默巴赫,一个刚从大学毕业的数学书。他被授予一个研究科学家的王子头衔,他的职责主要是了解人们如何使用社交网络服务。

您可能还喜欢:使用 Python 进行实用数据挖掘。

彭博社的采访中,杰夫分享了他在处理数据和构建一门新的分析技术方面的经验,当时Facebook还没有工具来做到这一点。后来,他在离开facebook后通过分析大型生物数据集,将他的数据科学能力引导到提供更好的癌症治疗。

所有数据科学家(如 Jeff)最终都花费大量时间用于数据准备,而不是将时间和技术诀窍投入到建模、计算和培训中。

为什么错误的数据让你的城堡变得与众不同

数据准备是一项繁琐的任务。它需要大量的时间和精力,需要无错误才能做出巧妙的发明。数据科学正朝着数据在基础设施、交通、环境、医学和许多其他重要领域进行改造,实现更好和高级生活的方向。

今天,我将带您完成某些常见的数据准备错误,这些错误代价高昂,并造成严重影响,如错误的见解和策略、复杂模型的迭代和分析模型功能障碍。

您需要摆脱的五个数据准备模糊

1. 丢失用例上下文 – 为什么偏差是危险的

IT 部门拥有的技术专长使数据准备得以操作和实施


完全由 IT 部门实施的数据准备缺乏对用例的业务理解,因此在流程中失去了上下文。

在不考虑上下文的情况下,公司会花费大量资金、时间和精力来准备数据,从而导致重复的迭代周期和不需要的输出水平。准确了解需求是什么,并深入了解这些需求有助于企业最大化分析结果。

2. 遗漏质量规则 – 脏数据等同于错误见解

在准备数据时,关注信息质量起着巨大的作用。数据质量是 B2B 世界中的一个大问题,需要处理各种数据质量问题。数据可能过时、丢失、容易出错、不完整等。现在,当数据质量差时,由此产生的见解和分析也会很差。例如,假设我们正在为电子邮件市场活动准备营销数据。

有一个基本的数据点,例如,缺少联系人的地理位置(不完整数据的情景)。现在,当数据被推送到进一步处理时,而不纠正错误或丰富信息,它可以对输出产生巨大的影响。在这种情况下,只有丰富了有关联系人的地理位置的数据,才能进一步加强和个性化市场活动信息。

3. 黄金法则:不要吞噬数据科学家的时间。而是雇佣一个团队

数据科学家在分析、数据建模和设计程序方面拥有很高的实力,为项目带来巨大价值。另一方面,数据工程师在提供干净、可用和经过良好处理的数据(通常称为数据准备或数据争用)方面辛辛苦以工作。

Source: Forbes

数据科学家将 80% 的时间用于数据准备。作为将数据转化为洞察力的策划者,你可能会认为谁比数据科学家更适合这个?

作为数据门卫,数据科学家应该有时间和空间来巩固他们的知识,从事更复杂的工作。但是,严酷的普遍现实是,他们的做法正好相反。这样做的不利结果是,他们每天为实际工作而减少工作时间,从而延长获得见解和取得切实项目成果的时间。

有什么解决办法?有成百上千的数据准备服务提供商可以帮助您完成此过程,使数据科学家能够利用他们的时间做他们需要做的事情。

4. 这是自动化的时代。逐步淘汰古代手工方法

最近的一项研究分享了他们关于公司用来准备数据的工具的发现,结果令人震惊。电子表格应用程序高达 75%,这表明分析和从数据派生的见解范围受到限制,因为电子表格不能像自动化工具那样帮助数据转换和分析。复杂的自动化工具可以处理大量数据,而电子表格几乎不支持数据准备功能。

由 AI 提供支持的数据准备过程的自动化将实现高效、高质量的准备。数据准备不仅涉及数据的集成,还将其转换为可分析的格式。自动化有助于关键地识别数据质量问题、丰富数据、确保安全性和数据关系。自动化应替换电子表格以执行此类高级任务。

下面是一篇关于机器学习数据准备的文章,它将帮助您了解数据准备中不同步骤的基本情况。

Source: Reddit

5. 什么要求放大镜深入挖掘数据 – 命名约定和人口大小问题,它是

命名约定必须设置简单,因为在准备过程中正在处理大量数据。保持简单明了,以便那些进行分析的人可以理解。这些可以全局为整个组织设置,也可以是特定于项目的。

建模数据集至少应具有 1,000 条记录,至少三年,以便实现范围或数据波动,从而产生重要的比较见解。更大的人口规模提供了更广泛和更深入的见解。

那么,你有什么借口?

数据准备绝不是一帆风顺的。无论是facebook、亚马逊还是谷歌的数据科学家——如果没有坚实的基础,他们就无法建造他们梦想中的分析城堡。对于一位数据科学家来说,在大胖白板上集思广益的Linux集群和Gnarly c代码,在准备数据时发生的一个青少年错误已经足够有可能完全减少创新。

BARC 的 BI 调查团队最近进行的一项研究,研究当今数据准备的使用方式、需要克服哪些挑战以及在哪个组织框架中进行。它有趣地发现公司在准备数据时所面临的各种问题,这些数据在输出中具有令人讨厌的结果。这些原因可能就是这些错误发生的原因。


运气或摇摆不定的修复不完全是你需要避免这种致命的瘟疫。您所需要的只是一套正确的预防措施,以彻底根除这种情况的发生,如果您只需要伸出援助之手,并具备准备准确数据集的合适专业知识。

进一步阅读

Comments are closed.