数据集市是数据仓库的业务用户界面。我尝试在第一 篇文章中解释如何设计企业 数据仓库。本文将给出一些最佳实践提示,用于为您的业务团队设计有用的数据集市。这个问题在我的上一篇文章中:

“您需要什么样的数据集市?”

您的业务团队的需求可能彼此不同。他们可能需要自己的数据格式,例如,财务部门有销售或营销部门以外的要求。

安全要求也必须考虑到。不同的部门不应访问或查看其他人的数据。您可能不希望其他部门查看系统上的所有财务数据。

另一方面,部门之间将存在共享数据,为了保持单一的真相,数据集市设计还应在您的系统中具有一些通用结构。

数据集市主要关注快速读取数据。有时,数据应以摘要格式保留。因此,您的数据市场可能包含一些聚合结构或基于业务团队需要的计算指标。

保持历史对于您的趋势分析和公司过去的情况非常重要。但是,保留所有事务数据可能会花费大量成本。因此,您可以在数据集市中创建一些月末或周末结构。

因此,我们可以将上述问题合并为以下几行:

  • 业务团队需要什么?它们有不同的要求,需要不同格式的数据吗?
  • 数据的安全性是您公司关心的问题吗?
  • 数据集市是否具有共同的结构,如维度或事实?
  • 业务团队是否需要聚合数据?
  • 业务团队是否需要新的计算指标?
  • 需要什么样的历史数据?
  • 应该有一个数据集市生命周期吗?

通用结构

并非所有数据都并非特定于业务部门。例如,您的客户数据在公司基础中是唯一的。因此,客户数据可以以单一格式保存,并由同一数据源交付给每个部门。

常见的结构还使您能够轻松管理系统。在 ETL 流程方面,您不必单独管理、安排数据集市。共同结构还赋予 ETL 流程的集中管理。

要设计公共结构,您可以将它们分为两类:

  1. 维度:您可以将所有维度都放在一个架构或用户中。知道它们都是您的维度表。
  2. 事实:事实包括您的主表、月末结构、事务表。

安全

您可以阻止所有用户查询公共结构,并为每个业务团队创建数据库角色,这些团队使用其数据库角色定义每个团队自己的策略 您可以在视图中的列和行中筛选数据。但对于性能问题,应始终考虑在视图中不定义复杂查询,否则报表的读取性能可能会降低。

聚合和计算数据

数据集市专为具有高性能的读取数据而设计。根据业务报告要求,有时需要创建聚合结构。例如,如果您有数十亿的使用情况数据,您可以保留使用数据总和的简单版本。有时需要根据现有数据计算新指标。如产品成本,或客户的收入或基于规则的细分客户。许多数据源需要在此类计算中合并。此时,可以按要求每天、每周或每月为数据集市生成计算数据。

保留历史数据

有时有必要将数据保留在某些日期基本结构中, 如 End of M on、E nd o f Week 或分区事务数据。根据您的趋势和数据分析要求,数据深度可以是 12 个月、24 个月或更多。这种深度应该根据数据特征来决定。

满足业务需求的数据市场类型

公司中的每个人都与公司拥有的所有数据无关。销售人员通常处理订单状态;哪些订单已完成,这些订单当前正在进行中。潜在客户也是销售部门关注的焦点。因此,您可以设计一个包含订单数据、客户数据等的数据集市。另一方面,财务部门可以处理付款、发票金额和其他钱。

数据市场生命周期

数据集市应该有一个生命周期吗?答案有时是”是”,有时是”否”。如果您为小型团队设计一个数据集市,那么在将来的某个时候,您的公司组织可能会更改,并且团队可能不再存在于您的公司中。在这种情况下,您可能不再需要该数据集市了。但是,您仍然可以在基础企业数据仓库中包含数据。

Comments are closed.