随着数据日益被公认为数字时代的企业货币, 人们提出了新的问题, 即如何收集、管理和利用数据作为整体企业数据体系结构的一部分。

数据仓库: 选择模型

在过去的几十年中, 数据仓库一直是选择的模型, 企业用来从企业资源规划 (ERP) 和供应链管理 (SCM) 平台等操作系统中提取结构化数据。企业整合和集中了数据, 并利用业务智能和决策支持工具进行深入、历史的报告和分析。虽然数据仓库是一个集中的、多用途的存储库, 在它的锁定和照顾下, 数据集市浮出水面, 作为为满足特定部门或业务功能的特定报告需求而构建的技术的一个子集。数据仓库是用自上而下的方法构建的, 存储详细的、结构化的数据, 而数据集市通常是从底层生成的, 其目的是提供选择数据的汇总形式。

这两种方法在多年的共同存在和取得了成功。但是, 更大、更多样的数据的出现–包括网络日志、图像、视频、直接消息等非结构化信息, 以及几乎无穷无尽的实时互联网数据流–给传统数据仓库/数据带来了挑战。集市体系结构根本没有能力处理。此外, 单一数据仓库存储库的集中远景从未完全具体化, 使得大多数组织都有少量的数据仓, 这会阻碍有效的决策。

转向数据湖

万顺伯恩的研究发现, 由遗留系统和过时的数据架构传播的断开的数据正在花费公司很大的时间。根据对 IT 领导和商业用户的调查, 美国和英国的组织每年损失1400亿美元, 浪费时间和资源, 重复工作, 并因数据中断而错失良机。超过半数的受访者 (56%) 表示, 数据仓库是实现其组织业务目标的障碍。

输入数据湖, 这是用于收集和处理数据的集中平台的最新格式副本, 这次使用的是一个平坦的、架构更少的体系结构, 通常围绕 Hadoop 构建, 并针对一般用途的数据处理进行调整。与数据仓库一样, 数据湖可以存储不同的数据源, 但相比之下, 数据不需要在采集过程中进行清理和转换。缺乏结构和预定义的架构使数据湖更具通用性, 使其非常适合于数据发现和更广泛的分析用例。此外, 数据湖能够实时地摄取和处理数据, 这更符合当今数字业务应用的紧迫性。

互补, 而不是替代

虽然有些人将数据湖作为数据仓库的替代品, 但许多数据管理专家并没有这样认为。相反, 他们认为这两种技术是互补的, 每个都为自己的用例服务。例如, 数据仓库非常适合于需要使用针对历史分析应用程序的预聚合和预集成信息的业务用户。另一方面,数据湖泊对数据科学家和其他想要使用原始数据的人来说是好的, 也许是为了构建基于机器学习的模型, 需要快速发现、探索和测试–与新一代的规定性和预测分析有了这样的基础结构, 组织就可以向前迈进下一代的数据驱动应用程序, 这将成为数字业务成功背后的引擎。

Comments are closed.