对企业的IT部门来说,提升和维护数据的质量是一个永恒的挑战。与此同时,数据的爆发式增长使这一任务变得越来越困难。此外,企业越来越依赖数据来获取新的见解并为决策提供合理的建议。数据质量,已成为IT部门的一个重要战场。
但对于很多IT部门来说,对数据质量的改进往往是被动性的,就像是救火:在数据质量问题出现后,我们才进行响应,从一个危机跳到另一个危机。往往是最大的问题最受关注。如果没有一个积极的数据质量过程,数据问题就会开始增加。所以我们应制定主动数据质量改进计划,其目标是在数据质量问题成为问题之前识别它们。
数据是任何企业的资产之一,其中的区别在于负责确保整个企业数据质量的团队的规模。很大一部分数据不是闲置的,它们会进入多个不同的数据存储系统。不正确的数据值就像是病毒:一旦出现,它可能就会传播到整个组织的数据报告和其他数据存储中。
这里有一些建议可以帮助您开始构建一个主动的数据质量改进计划,当然这些建议并不是绝对的,但会帮助你开始思考这个过程。该计划的目标是确保企业数据的准确性和一致性。
建立一个数据质量理念体系
像所有的组织计划一样,创建一个数据质量改进的理念体系,需要从组织结构的顶部开始,让高层管理人员参与进来至关重要。需要确定负责数据质量的团队成员,并向IT人员和业务部门宣传数据质量改进计划的好处,其目标是将数据质量集成到组织结构中。
合适的人掌握合适的技能
数据质量专家很难找到,而且成本可能很高,但这并不妨碍你“自我成长”。在公司里找一些对此有兴趣的人员,并为他们提供学习数据质量科学的时间和相关培训。您可以根据预算限制和您所拥有的人力资源来构建相应的项目。
没钱没工具?没有关系
没有足够的预算来购买主数据管理(MDM)产品或数据质量工具?这当然是个很大的挑战,但不能成为借口。笔者回顾了几家初创公司的数据质量项目,几乎可以称作是文档、流程、程序库和开源产品的大杂烩。如果组织需要,您也可以通过使用一些开源的MDM和数据质量工具,如Talend、Pimcore和OS DQ等等,创建一个强大的、主动的数据质量改进计划。
数据质量始于产生和获取
为了开发高质量的数据集,您必须在产生或从外部数据源获取数据时遵循最佳实践方法。与信息使用者沟通,确定他们如何使用数据,并确定治理数据的业务策略。然后,您可以开发一个标准,并构建数据定义规则来保证一致性。
大多数数据库提供一组约束来强制执行数据一致性。对于以编程方式执行数据一致性的非数据库平台,建议研究其他一些存储公共代码、数据质量规则和最佳实践的机制。
强烈建议各种规模的组织认真评估MDM产品套件。MDM平台的流程框架和工具将成为数据质量程序的基础,帮助您更快地建立和实施企业范围内的单一事实来源。
维持数据质量
执行前瞻性的数据质量检查,将成为改进计划的核心部分。其过程应该是(1)识别、(2)优先级、(3)评估、(4)纠正,即:识别数据和主体,对数据的重要性进行优先级排序,评估最重要的数据资产,纠正不准确的数据值。
当您识别出不正确的数据值时,您的目标应该是确定可能造成的影响的严重程度和影响范围,并确定问题的根源。然后采取必要的步骤来修复不正确的数据值,并解决产生问题的根本原因。
目前市面上有许多数据质量产品可以帮助您进行分析,建议在选型之前结合权威机构的调查报告了解每家提供商的优劣。
构建具有前瞻性数据质量计划,永远都不算晚。如果计划合理且完善,就能很大程度上减少数据质量问题,更好地保护和使用企业的数据资产。
原文作者:Chris Foot