所有使用外部数据构建产品或生成见解的数据驱动型企业都知道,使用不完整或不准确的信息会导致不可靠的结果。购买已经经过一些数据清理的数据可以节省时间,但也会带来挑战。

在本文中,我将讨论为什么网络数据清理与清理其他类型的数据不同,并根据我在网络数据行业的经验为企业分享一些技巧。

定义干净的网络数据

公共网络数据是可以公开在线访问的任何数据。在抓取网络数据时,公司会使用非结构化的原始数据,这些数据需要进行解析并经过一定程度的处理,以使其对于分析或机器学习等任务而言更加结构化和可读。

但是,对于大多数分析用例来说,这种处理水平仍然需要提高,因为此时数据仍然包含重复、虚假、非标准化值、空值和大量无用数据。

无用数据是与您的工作环境无关的低质量数据。假数据也是无用数据。在本文中,我们将虚假数据称为非人类创建的数据或由人类创建的数据,但其中的信息不真实且不会创造任何价值。

作为一家企业,您不想根据部分不准确、不完整且未规范化的数据做出决策。这就是为什么“垃圾进,垃圾出”原则如此重要。 Web 数据清理可提高数据质量并减小数据集大小,从而节省大量工程资源并缩短价值实现时间。

与原始照片文件如何包含相机在捕捉图片的短暂瞬间吸收的所有视觉信息类似,原始数据包含源中的所有信息。

干净数据是摄影师发送给客户的最终照片。这是同一张照片,但颜色平衡,不相关的物体被删除,并且摄影师可能应用了他们喜欢的照片滤镜。

为了正确看待这一点,我最近研究了一个干净的数据集,其中包含有关全球公司的信息。原始数据集包含超过 6800 万条数据记录。清理后的版本包含近 3500 万条记录。

这意味着几乎一半的数据记录被删除了。然而,3500万条完整、准确的企业数据记录仍然是一个巨大的数据集,可以为产品和深度分析提供动力。

Web 数据清理示例

即将开始使用原始公共网络数据的团队应该准备好处理以下问题:

  • 从哪里获取数据?
  • 您的数据管道是什么样的?
  • 您想对基本为空的记录做什么?你想保留它们吗?
  • 如果您的数据有虚假记录怎么办?你如何对待他们?
  • 例如,您如何判断公司简介是否真实?

新抓取的数据可能存在各种问题,需要几个数据处理步骤才能将抓取的数据转换为干净的数据,其中关键的一个是日期解析。为了让事情变得更简单,我将主要关注公司数据。

我们以反映公司成立日期的数据为例。有超过 20 种日期格式。其中一些很常见,而另一些则不常见。想象一下,您在互联网上抓取并拥有多种不同日期格式的数据:“2023 年 11 月 1 日”、“2023-11-01”、“11/01/2023”。

您要做的就是通过标准化日期字段将它们转换为一个。如果考虑到人为拼写错误和其他问题,情况会很复杂。然而,仅此一项就可以使过滤等操作变得更加容易。

这是另一个示例。您抓取包含文本字段的网络数据。您可以在文本中找到其他符号,例如表情符号或网络链接。以及爬虫将其视为 HTML 标签的各种文本格式工件。所有这些事情可能会使数据对您来说意义不大。

最后,让我们获取地址。同样,您将遇到各种版本的地址,但对于大多数用例,您将需要统一的地址格式。

网络数据清理挑战

您可能想知道网络数据清理与其他类型的数据有何不同。嗯,值得注意的是,“网络数据”广泛地描述了不同格式、单位和类型的数据。它的范围从免费的用户生成的文本输入到图片、视频以及更高级的文本形式和具有输入校对的其他字段。

虽然网络数据清理的最初描述听起来或多或少简单,但这个过程面临着许多挑战。

  • 首先,B2B 网络数据通常是大数据。数据集从 GB 到 TB 甚至更多。因此,与大数据处理相关的所有挑战(例如存储和访问数据或根据技术能力调整业务节奏)都适用于网络数据清理。
  • 其次,您很可能会希望处理没有任何异常的结构化数据。解析数据并从解析的数据中获取特定信息都需要大量工作。
  • 最后,网络数据清理的一个重要部分是校对。它从理论角度出发,而不是从实际清洁角度出发。例如,您将如何区分好数据和假数据?处理虚假数据具有挑战性。您需要决定一种方法,实施它,测试您的论文,并定期重新审视这个问题,因为网络数据很容易发生变化。

原始数据还是干净数据:购买哪一个?

在这里,两个世界发生了碰撞。还记得在本文前面,我如何使用短语“垃圾输入,垃圾输出”来描述在清理过程中被删除为无价值的数据部分吗?特殊字符、不完整的值、虚假数据等?

具有讽刺意味的是,还有另一种关于垃圾的说法与这种情况非常相关:一个人的垃圾是另一个人的宝藏。网络数据中的“杂质”是一些公司想要使用它的关键因素之一。以下是几个示例:

  • 公司发现 HTML 标记、控制值、非标准化输入、表情符号以及经常被删除的数据中的类似元素的价值;
  • 公司有技术能力并准备好处理原始数据;
  • 该公司严格要求内部数据处理:他们希望在收集后的整个数据生命周期中从头开始做所有事情,而不需要其他方的任何输入。

虽然处理原始网络数据具有挑战性,但此类数据具有巨大的潜力。这是公司经常需要的空白页。通过选择原始数据,他们根据自己的确切需求进行处理。它们赋予数据意义,包括它们决定保留的数据以及它们删除或更改的数据。

根据处理的级别,清理数据已经具有一定的意义。例如,根据数据供应商决定的标准,特定类型的输入或数据记录(例如特殊符号或不完整的记录)被认为是不相关的。

如果您的方法与数据供应商的方法一致,您将通过选择已清理的数据节省大量时间和金钱。干净的数据已准备好用于分析过程和见解生成,最终缩短价值时间。

公司在购买清洁数据时会犯哪些错误?

购买现成的数据集可以帮助企业节省大量用于收集和处理网络数据的时间和金钱。不过,在购买干净数据时,我建议考虑一些事项。

购买干净数据集时要避免的一个相对明显但可能的错误是不知道实际执行了哪些数据清理过程。

  • 购买之前,请向您的数据提供商询问您在开始收集和清理网络数据时会问自己的相同问题:他们使用哪些来源,他们如何判断数据是否虚假、哪些数据被删除、哪些数据被更改等等。
  • 如果您正在生成可为业务决策提供信息的见解,或者您的目标是解决业务问题,那么您很可能需要多个数据集。这同样适用于任何数据购买。
  • 最后,不要把所有鸡蛋放在同一个篮子里。您的数据团队应该使用相互补充的各种来源和数据集来支持调查结果。在公司数据市场中尤其如此,因为有关您正在分析的公司的附加信息使您可以获得独特且可靠的见解。

最终想法

数据清理是一个复杂且消耗资源的过程。找到一个可以根据您的需求清理和准备数据集进行分析的数据供应商可以被认为是外包部分工程工作的好方法。

尽管此选项不适合需要完全原始数据集的公司,但根据我的经验,许多其他公司将受益于减小的数据集大小以及更快地从数据中提取价值的机会。

Comments are closed.