lake-in-mountains

如今,大多数企业都有一个数据仓库,由各种 BI 工具访问,以帮助决策过程。这些功能已经使用了几十年,并且很好地满足企业数据要求。

但是,随着收集的数据量和类型的扩展,还可以对这些数据执行更多工作。其中大多数是企业可能尚未识别的用例,在有机会实际处理数据之前,他们将无法做到这一点。

这就是数据湖的入口。在本博客中,我们将更深入地了解数据湖与数据仓库的争论,并尝试了解这是新替换旧数据库还是两者实际上是互补的。

你也可能喜欢:一个卡夫卡教程为大家,不管你的发展阶段。

数据湖与数据仓库

数据仓库和数据湖在三个关键方面有所不同:

数据结构

就数据存储方式而言,数据仓库与实际仓库非常类似。一切都被整齐地标记和分类,并存储在一个特定的顺序。同样,企业数据在被接受到数据仓库之前,首先被处理并转换为特定格式。此外,数据仅来自选定的源数,并且仅为一组预定的应用程序供电。

另一方面,数据湖是一个庞大而灵活的存储库,可以存储未经处理的原始数据。数据大多采用非结构化或半结构化格式,有可能被任何现有业务应用程序或企业将来可能想到的业务应用程序使用。

数据结构的差异也转化为数据湖的关键成本优势。清理和处理原始数据以对其应用特定架构是一个耗时的过程。而且,在以后更改此架构也是费力且成本高昂的。但是,由于数据湖在引入数据之前不需要应用架构,因此它们可以以数据仓库成本的一小部分来保存更多数量和更广泛的数据。

目的

数据仓库需要结构化数据,因为数据将如何使用,因此已经定义了数据。由于数据的清理和处理已经非常昂贵,因此数据仓库的目标是尽可能高效地使用存储空间。因此,每一条数据的目的都是众所周知的,即哪些数据将交付给哪些业务应用程序。这可确保优化空间。

数据流入数据湖的用途尚未确定。这是一个收集和保存数据的地方,稍后将决定在何处以及如何使用数据。这通常取决于如何探索和试验这些数据,以及企业内部创新所产生的要求。

辅助功能

与数据仓库相比,数据湖总体上更易于访问。数据湖中的数据很容易被访问和更改,因为它以原始格式存储。另一方面,数据仓库中存在的数据需要花费大量的时间和精力才能转换为不同的格式。在这种情况下,数据操作也非常昂贵。

数据湖是否会取代数据仓库?

不。数据湖很可能不会取代数据仓库。相反,这两个选项是相辅相成的当您知道业务利益干系人需要某些信息,或定期分析特定数据集或指标时,数据仓库就足够了。它构建为在架构中引入数据,以便快速给出必要的答案。例如,收入、特定区域的销售额、销售额同比增长、业务绩效趋势都可以由数据仓库处理。

但是,随着企业开始收集更多类型的数据,并希望从中探索更多的可能性,数据湖成为一个关键的补充。

如前所述,在数据加载到数据湖后,将架构应用于数据。这通常是在数据即将用于特定目的时完成的。数据如何适合特定的用例,决定了将投影到该用例上的架构。这意味着数据一旦加载,就可以用于各种目的,并用于不同的业务应用程序。

这种灵活性使得数据科学家能够对数据进行实验,以找出可以利用什么。他们可以设置快速模型来分析数据、识别模式、评估潜在的业务机会。通过创建和存储与原始数据一起创建的元数据,可以尝试不同的架构,以不同的结构化格式查看数据,以发现哪些模式对企业有价值。

鉴于数据湖的这些特征,它可以以几种不同的方式增加数据仓库:

  • 开始探索您收集的数据的潜力,超出您当前数据仓库的结构化功能。这可能围绕您可以使用这些数据资产创建的新产品和服务,甚至增强您当前的流程。(例如,利用数据湖来收集网站访问者的信息,并用它来推动更个性化的买家旅程和不断发展的营销策略。
  • 使用数据湖作为准备环境,在将大型数据集馈入数据仓库之前对其进行处理
  • 轻松处理流数据,因为数据湖并不限于基于批处理的定期更新。

底线是数据仓库仍然是企业数据体系结构的关键部分。它使 BI 工具保持运行,并允许不同的利益相关者快速访问他们需要的数据。

但是,数据湖的实施进一步加强了您的业务,因为:

  • 您可以访问大量可存储以供使用的数据,无论其结构或质量如何
  • 存储是经济高效的,因为它消除了在存储之前处理数据的需要
  • 数据可用于多种用途,无需承担将其重组为不同格式的成本
  • 通过不同的模型和应用程序运行数据的灵活性使得识别新的用例变得更加轻松和快速

在以新颖方式利用数据的能力提供关键竞争优势的市场中,重点不应不再放在数据湖与数据仓库上。企业要保持领先地位,必须实现数据仓库和湖泊的互补功能,并致力于建立一个充分利用两者模式。

进一步阅读

Comments are closed.