数据湖和数据仓库的不同点,数据湖和数据仓库有什么区别?

什么是数据仓库?

数据仓库是技术和组件的混合体,允许战略性地使用数据。它是一种收集和管理来自不同来源的数据以提供有意义的业务见解的技术。

它是企业为查询和分析而不是为事务处理而设计的大量信息的电子存储。它是一个将数据转化为信息的过程。

什么是数据湖?

数据湖是一个存储库,可以存储大量结构化、半结构化和非结构化数据。它是一个以本机格式存储每种类型数据的地方,不受帐户大小或文件的固定限制。它提供了高数据量来提高分析性能和本地集成。

数据湖就像一个大容器,非常类似于真实的湖泊和河流。就像在一个湖中有多个支流,一个数据湖有结构化数据,非结构化数据,机器对机器,实时流动的日志。

数据仓库的概念:

数据仓库将数据存储在文件或文件夹中,这些文件或文件夹有助于组织和使用数据进行战略决策。该存储系统还提供了原子数据和摘要数据的多维视图。需要履行的重要职能是:

  1. 数据提取
  2. 数据清理
  3. 数据转换
  4. 数据加载和刷新

数据湖的概念

数据湖是一个大型存储库,它以原始格式存储大量原始数据,直到需要时为止。数据湖中的每个数据元素都有一个惟一的标识符,并用一组扩展元数据标记。它提供了各种各样的分析能力。

数据湖和数据仓库之间的关键区别

《数据湖和数据仓库的不同点,数据湖和数据仓库有什么区别?》

以下是两个数据相关术语在上述方面的主要区别:

参数 数据湖
存储 在数据湖中,所有的数据都保持不变,而不考虑源及其结构。数据以原始形式保存。它只有在准备好使用时才会被转换。 数据仓库将由从事务系统提取的数据或由带有属性的定量度量指标组成的数据组成。数据被清理和转换
历史 用于数据湖的大数据技术相对较新。 与大数据不同,数据仓库的概念已经使用了几十年。
数据捕获 从源系统捕获各种数据和结构,包括半结构化和非结构化的原始形式。 捕获结构化信息,并按照为数据仓库目的定义的模式组织它们
数据的时间表 数据湖可以保留所有数据。这不仅包括正在使用的数据,还包括将来可能使用的数据。而且,数据是永久保存的,以便回到过去进行分析。 在数据仓库开发过程中,需要花费大量的时间来分析各种数据源。
用户 数据湖是深度分析用户的理想选择。这些用户包括需要具有预测建模和统计分析等功能的高级分析工具的数据科学家。 数据仓库结构良好、易于使用和理解,是操作用户的理想选择。
存储成本 大数据技术中的数据存储相对于数据仓库中的数据存储成本较低。 在数据仓库中存储数据的成本更高,也更耗时。
任务 数据湖可以包含所有的数据和数据类型;它允许用户在转换、清理和结构化过程之前访问数据。 数据仓库可以为预定义数据类型提供对预定义问题的洞察。
处理时间 数据湖使用户能够在数据被转换、清理和结构化之前访问数据。因此,与传统的数据仓库相比,它允许用户更快地获得结果。 数据仓库为预定义数据类型提供了对预定义问题的洞察。因此,对数据仓库的任何更改都需要更多的时间。
位置模式 通常,模式是在数据存储之后定义的。这提供了很高的灵活性和数据捕获的便捷性,但需要在流程结束时进行工作 通常模式是在数据存储之前定义的。要求在流程开始时进行工作,但提供性能、安全性和集成。
数据处理 数据湖使用ELT(提取负载转换)过程。 数据仓库使用传统的ETL(提取转换负载)流程。
问题 数据以原始形式保存。它只有在准备好使用时才会被转换。 数据仓库的主要问题在试图对数据仓库进行更改时所面临的问题。
关键好处 他们集成了不同类型的数据来提出全新的问题,因为这些用户不太可能使用数据仓库,因为他们可能需要超越数据仓库的功能。 组织中的大多数用户都是可操作的。这些类型的用户只关心报告和关键性能指标。

总结:

  • 数据仓库是技术和组件的混合体,允许战略性地使用数据。
  • 数据湖是一个存储库,可以存储大量结构化、半结构化和非结构化数据。
  • 数据仓库将数据存储在模式和表中,这有助于组织和使用数据进行战略决策。
  • 数据湖是一个大型存储库,它以原始格式存储大量原始数据,直到需要时为止。
  • 与大数据不同,数据仓库的概念已经使用了几十年。
  • 大数据技术与数据湖的使用相结合是比较新的。
点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注