数据分析是检查现有源中的数据并汇总有关该数据的信息的过程。您可以分析数据, 以确定数据的准确性、完整性和有效性。数据分析可以出于多种原因, 但最常见的是帮助确定作为大型项目组件的数据质量的一部分。通常, 数据分析与etl (提取、转换和加载) 进程相结合, 以便将数据从一个系统移动到另一个系统。如果操作得当, etl 和数据分析可以结合起来, 以清理、丰富质量数据并将其移动到目标位置。

例如, 您可能希望在从旧系统迁移到新系统时执行数据分析。数据分析可以帮助确定在将数据移动到新系统时需要在代码中处理的数据质量问题。或者, 您可能希望在将数据移动到数据仓库以进行业务分析时执行数据分析。通常, 当数据移动到数据仓库时, 会使用 etl 工具来移动数据。数据分析有助于确定在源中必须修复哪些数据质量问题, 以及在etl 过程中可以修复哪些数据质量问题。

为什么选择配置文件数据?

数据分析允许您回答有关数据的以下问题:

  • 数据是否已完成?是否有空值或空值?
  • 数据是唯一的吗?有多少个不同的值?数据是否重复?
  • 数据中是否存在异常模式?数据中模式的分布是什么?
  • 这些是你所期望的模式吗?
  • 存在哪些值的范围, 它们是预期的?给定数据的最大值、最小值和平均值是多少?这些是你期望的范围吗?

回答这些问题有助于确保您维护高质量的数据, 而企业越来越意识到这些数据是业务蓬勃发展的基石。有关详细信息, 请参阅我们关于数据质量的帖子。

您如何分析数据?

数据分析可以通过不同的方式执行, 但大约有三种基本方法用于分析数据。

  • 列分析计算每个值在表中的每一列中出现的次数。此方法有助于发现数据中的模式。

  • 跨列分析在各列之间进行查找, 以执行键和依赖项分析。键分析扫描表中的值集合, 以找到潜在的主键。依赖关系分析确定数据集中的依赖关系。这些分析共同确定了表中的关系和依赖关系。

  • 跨行分析在表之间进行查找, 以确定潜在的外键。它还试图确定表之间语法和数据类型的相似性和差异, 以确定哪些数据可能是冗余的, 哪些数据可以映射在一起。

规则验证有时被认为是数据分析的最后一步。这是添加规则以检查输入到系统中的数据的正确性和完整性的一个主动步骤。

这些不同的方法可以由分析师手动执行, 也可以由可以自动执行这些查询的服务执行。

数据分析挑战

由于您需要分析的数据量巨大, 因此数据分析通常很困难遗留系统可能有多年的旧数据, 并有数千个错误。专家建议您将数据作为数据分析过程的一部分进行分段, 以便可以查看树的林。

如果手动执行数据分析, 则需要专家来运行大量查询并筛选结果, 以获得有关数据的有意义的见解, 这可能会消耗宝贵的资源。此外, 您可能只能检查整个数据的子集, 因为遍历整个数据集太耗时了。

Comments are closed.