我们最近写了一篇文章,揭穿了有关数据湖体系结构、数据湖定义和数据湖分析的常见神话。它被称为“什么是数据湖?得到一条腿,避免最大的神话。在这篇文章中,我们界定了有关数据湖的当前对话,以及它们如何适应企业数据策略。由于顾问和供应商的建议相互矛盾,这个话题历来是令人困惑和不透明的。

一个可能特别令人困惑的区域是认为湖泊只用于”大数据”。如果你花任何时间阅读湖泊上的材料,你会认为只有一种类型,它会看起来像卡普西亚海(这是一个湖泊,尽管”海”的名字)。人们将数据湖描述为巨大的、包罗万象的实体,旨在掌握所有知识。好消息是,湖泊不仅仅是”大数据”,您比以往有更多的机会让它们成为数据堆栈的一部分。

是,有不同类型的数据湖

正如它们在自然界中一样,湖泊的形状和大小各异。每个都有一种自然状态,通常反映数据生态系统,就像自然界中的数据生态系统一样,它们反映了鱼类、鸟类或其他生物体的生态系统。

不幸的是,”大数据”的角度给人的印象是,湖泊只用于”里海”规模数据的努力。这无疑使数据湖的使用变得令人生畏。因此,用如此大规模的术语来描述事物,使得那些能够从较小规模中受益的人无法进入湖泊的概念。下面是一些数据湖示例;

  • 大”里海”:就像里海是一大片水域一样,这种类型的湖泊是一组庞大而广泛的存储库多样化的数据集。这种广泛的不同数据集合反映了来自整个企业的信息。这就是大多数数据湖工作的框架。
  • 临时”临时”:就像沙漠可以有小而临时的湖泊一样,一个短暂的存在时间很短。它们可用于项目、试验、PoC 或点解决方案,并且它们在打开时会尽快关闭。
  • 域”项目”:这些湖泊,如临时数据湖,往往专注于特定的知识领域。然而,与临时湖不同,这个湖会随着时间的推移而持续。这些可能也是”浅”的,这意味着它们可能集中在一个狭窄的数据领域,如媒体、社交、网络分析、电子邮件或类似数据源。

我们最近与客户合作创建”域”类型的湖泊。此湖将Adobe 事件数据保存到 AWS 以支持企业 Oracle 云环境

根据设计,所有类型的湖泊都应该采用一种抽象,将风险降至最低,并给你更大的灵活性。此外,它们的结构应便于使用,而与它们的大小无关。这可确保数据科学家、业务用户或分析师使用的湖泊都具有结构化的环境,便于数据使用。

开始使用数据湖

成为成功的早期采用者意味着采用商业价值方法,而不是技术方法。以下是您思考如何入门的一些提示:

  • 焦点:寻找可以部署”临时”或”项目”解决方案的机会。这将确保您降低风险并克服技术和组织挑战,以便您的团队能够建立对湖泊的信心。
  • 激情:确保您内部有一个”传道者”或”倡导者”,即对公司内部解决方案和采用充满热情的人。
  • 简单:拥抱简单和敏捷,通过这个镜头让人、流程和技术选择。缺乏复杂性不被视为一种缺陷,而不应被视为深思熟虑设计的副产品。
  • :通过限制您的湖来了解数据(例如 ERP、CRM、销售点、市场营销或广告数据)的出口,使范围变窄且定义良好。在此阶段,数据素养将帮助您了解有关数据结构、输入、治理、质量和测试的工作流。
  • 实验将湖与现代 BI 和分析工具(如 Tableau、PowerBI、亚马逊快速视点或看点器)配对。这将使非技术用户有机会通过湖泊进行实验和探索数据访问。这允许您参与不同的用户群,以评估性能瓶颈,发现改进机会,可能与任何现有的 EDW 系统(或其他数据系统)的联系,以及其他候选数据源。

专注于业务价值,而不是技术,使您有机会在整体数据和分析战略的背景下制定您的努力框架。这提高了速度,并帮助您实现数据湖目标并衡量业务绩效的进度。这也导致对共享术语、最佳实践和投资进行优化,以构建更好的平台

Comments are closed.