数据湖是什么?数据湖和数据仓库什么关系,数据湖的架构分析

什么是数据湖?

数据湖是一个存储库,可以存储大量结构化、半结构化和非结构化数据。它是一个以本机格式存储每种类型数据的地方,不受帐户大小或文件的固定限制。它提供了高数据量来提高分析性能和本地集成。

数据湖就像一个大容器,非常类似于真实的湖泊和河流。就像在一个湖中有多个支流,一个数据湖有结构化数据,非结构化数据,机器对机器,实时流动的日志。

《数据湖是什么?数据湖和数据仓库什么关系,数据湖的架构分析》

数据湖使数据民主化,是存储组织所有数据以供以后处理的一种经济有效的方法。研究分析师可以专注于寻找数据中的意义模式,而不是数据本身。

不像分层的数据仓库,数据存储在文件和文件夹中,数据湖有一个扁平的架构。数据湖中的每个数据元素都有一个惟一的标识符,并用一组元数据信息进行标记。

目录

  • 什么是数据湖?
  • 为什么使用数据湖?
  • 数据湖架构
  • 数据湖的关键概念
  • 数据湖的成熟度
  • 数据湖实施的最佳方法
  • 数据湖和数据仓库之间的区别
  • 使用数据湖的好处和风险

为什么使用数据湖?

构建数据湖的主要目的是为数据科学家提供一种未经提炼的数据视图。

使用数据湖的原因是:

  • 随着Hadoop等存储引擎的出现,存储不同的信息变得很容易。不需要使用数据湖将数据建模为企业范围的模式。
  • 随着数据量、数据质量和元数据的增加,分析的质量也会提高。
  • 数据湖提供业务灵活性
  • 机器学习和人工智能可以用来做出有利可图的预测。
  • 它为实施组织提供了竞争优势。
  • 没有数据筒仓结构。数据湖提供360度的客户视角,使分析更加稳健。

数据湖架构

《数据湖是什么?数据湖和数据仓库什么关系,数据湖的架构分析》

图中显示了业务数据湖的体系结构。较低的级别表示大部分处于静止状态的数据,而较高的级别表示实时事务数据。这些数据在系统中流动,没有或只有很少的延迟。以下是数据湖架构中的重要层次:

  1. 采集层:左侧的数据源。数据可以批量或实时加载到数据湖中
  2. 视图层:右边的视图层表示使用来自系统的视图数据来进行分析。SQL、NoSQL查询,甚至excel都可以用于数据分析。
  3. HDFS对于结构化和非结构化数据都是一种经济有效的解决方案。它是系统中所有静止数据的着陆区。
  4. 转换层从存储层中提取数据,并将其转换为结构化数据,以便于分析。
  5. 处理层运行分析算法和用户查询,具有不同的实时性、交互性、批处理能力,生成结构化数据,便于分析。
  6. 统一操作层管理系统管理和监控。它包括审计和熟练管理,数据管理,工作流管理。

数据湖的关键概念

下面是需要理解的数据湖关键概念,以便完全理解数据湖体系结构。

《数据湖是什么?数据湖和数据仓库什么关系,数据湖的架构分析》

数据采集

数据采集允许采集程序(前置机)从不同的数据源获取数据并加载到数据湖中。

数据采集支持:

  • 所有类型的结构化、半结构化和非结构化数据。
  • 多个采集,如批量,实时,一次性加载。
  • 许多类型的数据源,如数据库、web服务器、电子邮件、物联网和FTP。

数据存储

数据存储应该是可伸缩的,提供经济有效的存储,并允许快速访问数据探索。它应该支持各种数据格式。

数据治理

数据治理是管理组织中使用的数据的可用性、可用性、安全性和完整性的过程。

数据安全

需要在数据湖的每一层实现安全性。它从存储、挖掘和消费开始。最基本的需要是停止未经授权用户的访问。它应该支持不同的工具来访问数据,并且易于导航GUI和仪表板。

认证、会计、授权和数据保护是数据湖安全的重要特征。

数据质量

数据质量是数据湖体系结构的重要组成部分。数据用于确定业务价值。从质量差的数据中提取见解将导致质量差的见解。

数据发现

在开始准备数据或分析之前,数据发现是另一个重要的阶段。在这个阶段,通过组织和解释数据湖中摄入的数据,使用标记技术来表达对数据的理解。

数据审计

两个主要的数据审计任务是跟踪对关键数据集的更改。

  1. 跟踪对重要数据集元素的更改
  2. 捕获如何/何时/以及谁更改这些元素。

数据审计有助于评估风险和遵从性。

数据溯源

这个组件处理数据的起源。它主要处理随着时间的推移它在哪里移动以及发生了什么。它简化了从起点到终点的数据分析过程中的错误纠正。

数据探索

这是数据分析的开始阶段。在开始数据探索之前,识别正确的数据集是非常重要的。

所有给定的组件都需要协同工作,才能在数据湖构建中发挥重要作用,从而轻松地演化和探索环境。

数据湖的成熟度

数据湖成熟度阶段的定义不同于教科书。尽管症结依然存在。在成熟度之后,阶段定义是从外行人的角度进行的。

《数据湖是什么?数据湖和数据仓库什么关系,数据湖的架构分析》

第一阶段:按比例处理和摄取数据

数据成熟度的第一个阶段包括改进转换和分析数据的能力。在这里,业务所有者需要根据他们的技能集找到工具,以获取更多数据并构建分析应用程序。

第二阶段:培养分析能力

这是第二个阶段,包括改进数据转换和分析的能力。在这个阶段,公司使用最适合他们技能的工具。他们开始获取更多的数据并构建应用程序。这里将同时使用企业数据仓库和数据湖的功能。

第三阶段:EDW和Data Lake协同工作

这一步包括让尽可能多的人掌握数据和分析。在这个阶段,数据湖和企业数据仓库开始在一个联合中工作。两者都在分析中扮演着各自的角色

第四阶段:湖中企业能力

在数据湖的这个成熟阶段,企业功能被添加到数据湖中。采用信息治理、信息生命周期管理功能和元数据管理。然而,很少有组织能够达到这个成熟度级别,但是这个数字在未来将会增加。

数据湖实施的最佳方法:

  • 体系结构组件、它们的交互和已标识的产品应该支持本地数据类型
  • 数据湖的设计应该由可用的而不是需要的驱动。在查询之前,不会定义模式和数据需求
  • 设计应以与服务API集成的一次性组件为指导。
  • 数据发现、采集、存储、管理、质量、转换和可视化应该独立管理。
  • 数据湖架构应该针对特定的行业进行定制。它应该确保该领域所需的功能是设计的固有部分
  • 更快地加载新发现的数据源是很重要的
  • 数据湖帮助自定义管理提取最大价值
  • 数据湖应该支持现有的企业数据管理技术和方法

构建数据湖的挑战:

  • 在数据湖中,数据量较高,因此流程必须更加依赖于程序化管理
  • 处理稀疏、不完整、易变的数据是困难的
  • 更大范围的数据集和数据源需要更大的数据治理和支持

数据湖和数据仓库的区别

参数 数据湖
数据 数据湖存储一切。 数据仓库只关注业务流程。
处理 数据主要未经处理 高度加工数据。
数据类型 它可以是非结构化、半结构化和结构化的。 它主要是表格形式和结构。
任务 共享数据管理 数据检索优化
敏捷性 高度敏捷,根据需要进行配置和重新配置。 与数据湖相比,它的灵活性较差,配置固定。
用户 数据湖主要由数据科学家使用 业务专业人员广泛使用数据仓库
存储 数据湖是为低成本存储而设计的。 使用价格昂贵、响应速度快的存储
安全 控制度相对较小 控制数据安全性要求更高。
是否可以替代EDW 数据湖可以作为EDW的数据源 EDW的补充(不是替代)
模式 读取模式(没有预定义的模式) 写模式(预定义模式)
数据处理 有助于快速消化新数据。 引入新内容非常耗时。
数据粒度 低细节或粒度级别的数据。 汇总的详细级别的数据。
工具 可以使用像Hadoop/ Map Reduce这样的开源/工具吗 主要商业工具。

使用数据湖的好处和风险:

下面是使用数据湖的一些主要好处:

  • 帮助充分分析产品和业务
  • 提供具有成本效益的可伸缩性和灵活性
  • 提供来自无限数据类型的值
  • 降低长期拥有成本
  • 允许文件的经济存储
  • 快速适应变化
  • 数据湖的主要优势是不同内容来源的集中
  • 来自不同部门的用户,可以分散在全球各地,灵活地访问数据

使用数据湖的风险:

  • 一段时间后,数据湖可能会失去相关性和动力
  • 设计数据湖涉及的风险较大
  • 非结构化数据可能导致不受治理的无用数据堆积、不可用的数据、不同的和复杂的工具、企业范围的协作、统一的、一致的和公共的
  • 它还增加了存储和计算成本
  • 没有办法从其他研究过这些数据的人那里获得数据解释,因为之前的分析人员没有对这些数据的整体流程、处理方式、采集源头等等进行说明
  • 数据湖最大的风险是安全和访问控制。有时候,数据可以在没有任何监管的情况下被放入湖中,因为一些数据可能有隐私和监管需要

总结:

  • 数据湖是一个存储库,可以存储大量结构化、半结构化和非结构化数据。
  • 构建数据湖的主要目的是为数据科学家提供一种未经提炼的数据视图。
  • 统一操作层、处理层、转换层和HDFS是数据湖体系结构的重要组成部分
  • 数据采集、数据存储、数据质量、数据审计、数据溯源、数据发现是数据湖体系结构的重要组成部分
  • 数据湖的设计应该由可用的而不是需要的驱动。
  • 数据湖降低了长期拥有成本,并允许文件的经济存储
  • 数据湖最大的风险是安全和访问控制。有时候,数据可以在没有任何监管的情况下被放入湖中,因为一些数据可能有隐私和监管需要。

文章说明:

本文翻译自国外技术文章:https://www.guru99.com/data-lake-architecture.html

文章相关术语可能与其他文章有些许不一致,大体字面意义注意分析。

本文为九五青年博客翻译,如需转载请在下面留言,原文如有版权问题,在下面留言板反馈,我们会第一时间处理。

 

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注