数据湖的概念起源于大数据的出现——且数据已成为企业的核心资产,Hadoop则是作为存储和管理数据的平台而出现。但是,盲目地投入Hadoop数据湖建设并不一定会使您的企业进入大数据时代——至少不是以一种成功的方式。
在将各种形状和大小的数据资产以非统一方式汇入Hadoop环境或另一个大数据存储库的情况下,尤其如此。这种无序的方法会带来一些挑战和问题,这可能会成为使用数据湖来支持大数据分析应用程序的一大阻碍。
例如,您可能无法记录哪些数据对象存储在数据湖中,或纪录其来源和出处。这使得数据科学家和其他分析人员很难找到分布在Hadoop集群中的相关数据,也难以使数据管理者识别谁可以访问特定数据集,并确定其访问权限级别。
如果您没有一个良好的管理流程,组织数据并将相似的数据对象“桶装”在一起以帮助简化访问和分析也将是一个挑战。
这些问题都与数据湖或底层环境的物理架构无关,无论是Hadoop分布式文件系统还是像Amazon Simple Storage Service这样的云对象存储——或这些技术的组合,每种技术包含不同的类型数据。相反,成功实施数据湖的最大障碍来自对数据管理的规划和监督不足。
处理Hadoop数据:做需要做的事
好的一点是,这些挑战很容易克服。以下是解决和避免这些问题的七个步骤:
1、创建数据分类方法。在数据湖中对数据对象进行组织取决于其分类方式。在分类中需要确定数据的关键维度,例如数据类型、内容、使用方案、可能的用户组和数据敏感性。后者涉及保护个人和公司数据,例如保护有关客户的个人身份信息,或者保护知识产权。
2、设计适当的数据架构。应用定义好的分类方法来指导如何在Hadoop环境中组织数据。最终的计划应包括诸如用于数据存储的文件层次结构、文件和文件夹命名约定、用于不同数据集的访问方法和控件、以及用于指导数据分发的机制之类的内容。
3、使用数据分析工具。在许多情况下,可以通过分析数据的内容,来部分地缓解对进入数据湖的所有数据了解不足的问题。数据概要分析工具可以通过收集有关数据对象中内容的信息来提供帮助,从而提供一些如何对其进行分类的见解。作为数据湖实施方案的一部分,对数据进行分析还有助于确定应评估的数据质量问题,以找出可能的修复方法,确保数据科学家和其他分析人员正在使用的信息是准确的。
4、标准化数据访问过程。有效使用存储在Hadoop数据湖中的数据集所面临的困难,通常源于不同分析团队使用多种数据访问方法,而且其中许多未记录。因此,建立一个通用而直接的API可以简化数据访问,并最终允许更多的用户利用数据。
5、开发可搜索的数据目录。有效数据访问和使用面临的一个更隐蔽的障碍是,除了有关数据沿袭、质量和流通的信息外,潜在用户不知道数据湖中的内容以及Hadoop环境中不同数据集的位置。协作数据目录允许将有关每个数据资产的前面这些以及其他详细信息记录在案。例如,它抓取结构和语义元数据、出处和亲属关系记录、访问权限信息等等。数据目录还为用户组提供了一个论坛,以共享有关使用数据的经验,问题和建议。
6、实施足够的数据保护。除了IT安全性的常规考虑(例如网络边界防御和基于角色的访问控制)之外,还需要利用其他方法来防止暴露数据湖中包含的敏感信息。这包括数据加密和数据屏蔽之类的机制,以及自动监视,以生成有关未经授权的数据访问或传输的警报。
7、在内部提高数据意识。最后,请确保您的数据湖用户意识到有必要主动管理其包含的数据资产。教会他们如何使用数据目录查找可用数据集,以及如何配置分析应用程序以访问他们所需的数据。同时,给他们留下深刻印象的是正确使用数据和增强数据质量的重要性。
为了实现使数据湖可访问和可用的最终目标,在将数据迁移到Hadoop环境或基于云的大数据架构之前,制定一个精心设计的数据处理计划至关重要。采取本文中概述的步骤将有助于简化数据湖的实施过程。更重要的是,规划、组织和治理的正确组合将有助于最大程度地提高组织在数据湖中的投资,并降低部署失败的风险。
原文作者: David Loshin