定义的数据转换

数据转换是将数据从一种格式或结构转换为另一种格式或结构的过程。数据转换对于数据集成和数据管理等活动至关重要。数据转换可以包括一系列活动: 您可以转换数据类型、通过删除空数据或重复数据来清理数据、丰富数据或执行聚合, 具体取决于项目的需要。

通常, 此过程涉及两个阶段。

在第一阶段, 您:

  • 在标识源和数据类型的位置执行数据发现。
  • 确定需要进行的结构和数据转换。
  • 执行数据映射以定义如何映射、修改、加入、筛选和聚合各个字段。

在第二阶段, 您:

  • 从原始源中提取数据。源的范围可能会有所不同, 包括结构化源 (如数据库) 或流源 (如来自连接设备的遥测数据) 或使用 web 应用程序的客户的日志文件。
  • 执行转换。转换数据, 如聚合销售数据或转换日期格式、编辑文本字符串或联接行和列。
  • 将数据发送到目标存储区。目标可能是处理结构化和非结构化数据的数据库或数据仓库。

为什么要转换数据?

出于多种原因, 您可能需要转换数据。通常, 企业希望转换数据以使其与其他数据兼容, 将其移动到另一个系统, 将其与其他数据联接, 或聚合数据中的信息。

例如, 考虑以下方案: 您的公司购买了一家较小的公司, 您需要合并人力资源部门的信息。购买的公司使用与母公司不同的数据库, 因此您需要执行一些工作以确保这些记录匹配。每个新员工都已获得员工 id, 因此这可以作为密钥。但是, 您需要更改日期的格式, 您需要删除任何重复的行, 并且必须确保 “员工 id” 字段没有空值, 以便对所有员工进行说明。在将数据加载到最终目标之前, 所有这些关键函数都在临时区域中执行。

转换数据的其他常见原因包括:

  • 您正在将数据移动到新的数据存储区;例如, 您要迁移到云数据仓库, 并且需要更改数据类型。
  • 您希望将非结构化数据或流数据与结构化数据结合起来, 以便可以一起分析数据。
  • 您希望向数据中添加信息以丰富数据, 例如执行查找、添加地理位置数据或添加时间戳。
  • 您希望执行聚合, 例如比较来自不同区域的销售数据或来自不同区域的总销售额。

数据是如何转换的?

有几种不同的方法来转换数据:

  • 脚本编写.一些公司通过使用 sql 或 python 编写代码来提取和转换数据的脚本来执行数据转换。
  • 本地 etl 工具。etl (提取、转换、加载) 工具可以通过自动化流程来减轻编写转换脚本的大部分痛苦。这些工具通常托管在公司的网站上, 可能需要大量的专业知识和基础架构成本。
  • 基于云的 etl 工具。这些 etl 工具托管在云中, 您可以在云中利用供应商的专业知识和基础架构。

数据转型面临的挑战

数据转换可能会有很大的困难, 原因有很多:

  • 耗时.您可能需要广泛清理数据, 以便对其进行转换或迁移

  • 很贵根据您的基础架构, 转换数据可能需要一个专家团队和大量的基础架构成本。

  • 慢点, 慢点由于提取和转换数据的过程可能会给您的系统带来负担, 因此通常会分批完成, 这意味着您可能需要等待长达24小时才能处理下一批数据。这可能会使您花费时间来做出业务决策。

  • Comments are closed.