判定一个数据治理计划的成功与否,也许并没有一个严格的标准。但总体来说,一个成功的数据治理计划,往往需要通过一定的策略、标准和流程,在整个组织架构中有效地、适当地使用高质量数据。对于搭建了“数据湖”环境,并且希望借此获得高质量数据分析结果的组织来说,如何对数据湖进行治理,也就成为了组织整个数据治理计划的一个重要部分。
但是,如何“打理”好一个庞大的数据湖,为组织的IT部门提出了各种挑战。在开始讨论数据湖治理的挑战之前,我们首先有必要明确一下数据湖的定义:它是数据平台类型的一种,可容纳大量原始数据,通常以其原生格式保留——直到需要将其用于分析时。
传统的数据仓库将数据存储在关系表中,而数据湖则使用平面架构。每个数据元素被分配一个唯一的标识符,并用一组元数据标签进行标记。因此,与数据仓库相比,数据湖的结构更少。在访问数据湖中的数据,将其用于分析时(而不是将数据加载到数据湖中),将对数据进行分类和组织。
有效的数据治理使组织能够提高数据质量和一致性,并最大程度地利用数据进行业务决策,从而改善业务规划和财务绩效。应用于数据治理的数据管理细分学科领域包括数据质量、元数据管理和数据安全性——这些因素都会影响到数据湖治理。以下是数据湖治理的五个常见挑战:
识别正确的数据源,并对其进行维护
在许多数据湖中,来源元数据往往并没有被捕获,或根本不可用,这使得数据湖内容的有效性并不那么可信。例如,记录系统或数据集的业务所有者可能并未列出,或者明显冗余的数据可能都会给数据分析人员带来问题。至少应记录数据湖中所有数据的来源元数据,让用户可以借此来了解数据的来源。
元数据管理问题
元数据为我们提供了数据集内容的各种相关信息,并且能够使数据在应用程序中更易于理解和使用。但是许多数据湖的实施方案往往忽略了一点,对于收集的数据应该使用正确的数据定义。而且,由于原始数据都会被加载到数据湖中,因此许多组织并没有相应的步骤去验证数据或对数据使用组织化的标准。数据湖中的数据若缺少适当的元数据管理,那么这些数据对于分析的用处可能就不会很大。
数据治理和数据质量之间缺乏协调
数据湖治理和数据质量工作的不协调,会使劣质数据进入数据湖。当数据用于分析且助力业务决策时,可能会导致结果准确度有所降低,进一步,甚至将使整个组织对数据湖丧失信心以及对数据的普遍不信任。有效的数据湖实施方案,需要数据质量分析师和工程师与数据治理团队和业务数据管理员密切合作,以应用数据质量策略,分析数据并采取必要的措施来提高其质量。
数据治理和数据安全之间缺乏协调
在这种情况下,未在治理流程中正确应用的数据安全标准和规则,可能会在访问受隐私法规保护的个人数据和其他类型的敏感数据时遇到一些问题。尽管数据湖本身旨在成为一个相当开放的数据源,但仍需要安全性和访问控制措施,并且数据治理和数据安全团队应在数据湖设计、数据装载过程以及正在进行的数据治理工作中协同努力。
使用同一个数据湖的业务部门之间可能产生冲突
不同部门对于相似的数据可能会有不同的业务规则,可能会因此无法调和数据间的差异来获得准确的分析结果。拥有一个有效的数据治理程序,并具有关于数据策略、标准、过程和定义的企业全局视图,比如企业业务词汇表,可以减少当多个业务部门使用一个数据湖时出现的问题。如果企业有多个数据湖,则每个数据湖都应包含在数据治理流程中,并为其分配业务数据管理员。
总而言之,通过在企业整个系统架构环境的设计、建设和维护过程中,制定有效且合理的数据治理、元数据管理、数据质量和数据安全方案,并由经验丰富的专业人员积极参与,可以大大提高数据湖的价值。否则的话,企业的数据湖很可能将劣化为数据沼泽。