从数据仓库到数据湖(上)：数据湖导论_从数据仓库到数据湖(上):数据湖导论

作者：IT小白 | 2024-07-14 21:51:05

踩

从数据仓库到数据湖(上):数据湖导论

文章目录

一、什么是数据湖？
- 起源
- 数据湖的特征
二、为什么要用数据湖？
三、数据湖与数据仓库的区别
- - 数据仓库和数据湖的对比
四、数据湖本质
五、总结
六、参考资料

一、什么是数据湖？

起源

数据湖的概念最早由Pentaho的创始人兼CTO詹姆斯·迪克森（James Dixon）于2010年10月在纽约Hadoop World大会上提出。然而，在国内，数据湖的概念直到2019年Iceberg、Hudi和Delta Lake三大数据湖开源后才真正流行起来。

让我们先看看维基百科对数据湖的介绍：

数据湖（英语：Data Lake）是指以其原始格式（如BLOB或文件等）存储的数据存储库或系统[1]。数据湖通常会将所有数据统一存储，包括源系统数据、传感器数据、社交数据等的原始副本，以及用于报表、可视化、数据分析和机器学习等流程中转换后的数据。数据湖还可能包括关系数据库的结构化数据（行与列）、半结构化的数据（CSV、日志、XML、JSON）及非结构化数据（电子邮件、文件、PDF）和二进制数据（图像、音频、视频）等。数据湖可能是“on premises”（指在组织的数据中心里），也可能放在云端（使用Amazon、微软或Google的云端服务）。

一言以蔽之：数据湖是一个理论上只要是可以转化成二进制的数据均可存储的数据存储管理系统

数据湖的特征

数据湖具有以下特点：

容量大
数据湖汇聚各个业务数据源，容纳散落在各处的数据，理论上存储空间巨大。
格式多
数据湖架构面向多数据源的信息存储，可以快速高效地采集、存储、处理大量来源不同、格式各异的原始数据，包括文本、图片、视频、音频、网页等各类无序的非结构化数据。数据湖能将不同种类的数据汇聚存储在一起，并对汇聚后的数据进行管理，建立数据之间的关联关系，具有很强的兼容性。
处理速度快
数据湖技术能将各类原始数据快速转化为可直接提取、分析、使用的标准格式，统一优化数据结构并对数据进行分类存储。根据业务需求，数据湖可以对存储的数据进行快速的查询、挖掘、关联和处理，并实时传输给终端用户。
分布式体系
由于Hadoop也能基于分布式文件系统来存储和处理多类型数据，因此许多人认为Hadoop的工作机制就是数据湖的处理机制。当然，Hadoop基于其分布式、可横向扩展的文件系统架构，可以管理和处理海量数据，但它无法提供数据湖所需的复杂元数据管理功能。最直观的表现是，数据湖的体系结构表明数据湖是由多个组件构成的生态系统，而Hadoop仅提供了其中的部分组件功能。