数据仓库中的维度模型是什么?数仓维度模型简介

什么是维度模型?

维度模型是为数据仓库工具优化的数据结构技术。维度模型的概念是由Ralph Kimball提出的,由“事实”和“维度”表组成。

维度模型用于读取、汇总和分析数据仓库中的数值信息,如值、余额、计数、权重等。针对实时在线事务系统中数据的添加、更新和删除,优化了关系模型。

这些维度和关系模型有其独特的数据存储方式,具有特定的优势。

例如,在关系模式中,规范化和ER模型减少了数据中的冗余。相反,维度模型以更容易检索信息和生成报告的方式排列数据。

因此,维度模型用于数据仓库系统,不太适合关系系统。

目录

  • 什么是维度模型?
  • 维度数据模型的元素
    • 事实
    • 维度
    • 属性
    • 事实表
    • 维度表
  • 维度建模的步骤
    • 步骤1)确定业务流程
    • 步骤2 )辨别纹理
    • 步骤3)确定维度
    • 步骤4 )认清事实
    • 步骤5)构建模式
  • 维度建模的规则
  • 维度建模的好处

维度数据模型的元素

事实

事实是来自业务流程的度量/量度或事实。对于销售业务流程,度量将是季度销售数字

纬度

维度提供围绕业务流程事件的上下文。简单地说,它们给出了事实的who、what、where。在销售业务流程中,对于事实季度销售数量,维度将是

  • 是谁-客户名称
  • 在哪儿-位置
  • 是什么-产品名称

换句话说,维度是查看事实中的信息的窗口。

属性

属性是维度的各种特征。

在Location维度中,属性可以是

  • 状态
  • 国家
  • Zipcode等等。

属性用于搜索、筛选或分类事实。维度表包含属性

事实表

事实表是维度模型中的主要表。

事实表包含

  • 测量/事实
  • 维度表的外键

维度表

  • 维度表包含事实的维度。
  • 它们通过外键连接到事实表。
  • 维度表是非规范化的表。
  • 维度属性是维度表中的各种列
  • 维度利用事实的属性提供事实的描述性特征
  • 对于给定的维数没有设置限制
  • 维度还可以包含一个或多个层次关系

纬度建模步骤

创建维度建模的准确性决定了数据仓库实现的成功。下面是创建维度模型的步骤

  1. 识别业务流程
  2. 识别纹理(细节级别)
  3. 确定维度
  4. 确定事实
  5. 构建星型模型

模型应该描述您的业务流程的原因、金额、时间、地点、人员以及内容

《数据仓库中的维度模型是什么?数仓维度模型简介》

1.确定业务流程

确定数据仓库应该涵盖的实际业务流程。根据组织的数据分析需求,可以是市场营销、销售、人力资源等。业务流程的选择还取决于该流程可用数据的质量。这是数据建模过程中最重要的一步,这里的失败会产生级联和不可修复的缺陷。

要描述业务流程,可以使用纯文本或基本业务流程建模符号(BPMN)或统一建模语言(UML)。

2 .辨别纹理

粒度描述了业务问题/解决方案的详细级别。它是为数据仓库中的任何表标识最低级别信息的过程。如果一个表包含每天的销售数据,那么它应该是每天的粒度。如果一个表包含每个月的总销售数据,那么它具有每个月的粒度。

在这个阶段,你要回答这样的问题

  1. 我们需要存储所有可用的产品还是只存储几种类型的产品?此决策基于为数据仓库选择的业务流程
  2. 我们是按月、周、日还是按小时存储产品销售信息?这一决定取决于执行人员所要求的报告的性质
  3. 以上两个选项如何影响数据库大小?

用粮食来举例:

跨国公司的首席执行官想要每天在不同的地点找到特定产品的销售情况。

所以,粮食是“产品销售信息按地点按天。”

3.确定维度

维度是名词,如日期、商店、库存等。这些维度应该存储所有数据。例如,date维度可能包含年份、月份和工作日等数据。

维度的例子:

跨国公司的首席执行官想要每天在不同的地点找到特定产品的销售情况。

尺寸:产品,地点和时间

属性:用于产品:产品密钥(外键)、名称、类型、规格

层次结构:用于位置:国家、州、城市、街道地址、名称

4 .认清事实

此步骤与系统的业务用户相关联,因为这是他们访问存储在数据仓库中的数据的地方。大多数事实表行都是数值,比如价格或单位成本等。

事实的例子:

跨国公司的首席执行官想要每天在不同的地点找到特定产品的销售情况。

事实上,这是按产品、地点和时间计算的销售额。

5.构建模式

在此步骤中,您将实现维度模型。模式只是数据库结构(表的排列)。有两种流行的模式

星型模型

星型架构易于设计。之所以称为星型模式,是因为图类似于星型,点从中心向外辐射。星型的中心由事实表组成,星型的点是维度表。

星型模型中的事实表是第三种范式,而维度表是非规范化的。

雪花模型

雪花模型是星型模型的扩展。在雪花模型中,每个维度都被规范化,并连接到更多的维度表。

维度建模的规则

  • 将原子数据加载到维度结构中。
  • 围绕业务流程构建维度模型。
  • 需要确保每个事实表都有一个关联的日期维度表。
  • 确保单个事实表中的所有事实具有相同的粒度或详细级别。
  • 在维度表中存储报表标签和筛选域值非常重要
  • 需要确保维度表使用代理键
  • 持续地平衡需求和现实,以交付业务解决方案来支持他们的决策

维度建模的好处

  • 维度的标准化允许跨业务领域轻松地进行报告。
  • 维度表存储维度信息的历史。
  • 它允许引入全新的维度,而不会对事实表造成重大破坏。
  • 维度还可以以这样一种方式存储数据:一旦数据存储在数据库中,就更容易从数据中检索信息。
  • 与规范化模型维表相比,维表更容易理解。
  • 信息被分成清晰而简单的业务类别。
  • 业务部门非常容易理解维度模型。此模型基于业务术语,因此业务知道每个事实、维度或属性的含义。
  • 为了快速查询数据,对维度模型进行了变形和优化。许多关系数据库平台都认识到这个模型,并优化查询执行计划以提高性能。
  • 维度建模创建了一个针对高性能进行优化的模式。它意味着更少的连接,并有助于最小化数据冗余。
  • 维度模型还有助于提高查询性能。它的非正态化程度更高,因此对查询进行了优化。
  • 尺寸模型可以舒适地适应变化。维度表可以添加更多列,而不会影响使用这些表的现有业务智能应用程序。

总结:

  • 维度模型是为数据仓库工具优化的数据结构技术。
  • 事实是来自业务流程的度量/量度或事实。
  • 维度提供围绕业务流程事件的上下文。
  • 属性是维度的各种特征。
  • 事实表是维度模型中的主要表。
  • 维度表包含事实的维度。
  • 有三种类型的事实1。添加剂2。非附加3。半添加剂。
  • 维度的类型包括一致维度、分支维度、收缩维度、角色扮演维度、维度到维度表、垃圾维度、退化维度、可切换维度和步骤维度。
  • 维度建模的五个步骤是1.识别业务流程2.识别纹理(细节级别)3.确定尺寸4.识别事实5.构建模型
  • 在维度建模中,需要确保每个事实表都有一个关联的日期维度表。

文章说明:

本文翻译自国外技术文章:https://www.guru99.com/dimensional-model-data-warehouse.html

本文为九五青年博客翻译,如需转载请在下面留言,原文如有版权问题,在下面留言板反馈,我们会第一时间处理

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注