赞
踩
首先提及一个最常用的概念数据库, 但凡是线系统基本都离不开数据库。数据库最主要的功能就是要强调事务处理, 比如 QPS(每秒查询数)、TPS(每秒事务数) 和 IOPS(每秒读写数)
但是数据库擅长的是事务性工作, 对于分析型的工作并不擅长,于是诞生了数据仓库。
随着企业持续的发展,虽然含金量比较高的数据都在”数据库“和”数据仓库“中。但是公司希望把生产经营相关的所有数据都保存下来,方便后续沙中淘金,可以构建起来数据湖。|
而根据数据湖和数据仓库的特点,数据仓库前期构建成本高,但是随着业务数据增长后期成本可控。而数据湖的特点是前期的构建成本很低。但是随着业务数据增多后期的成本越来越高。为了结合两部分的优缺点构建了仓湖一体的概念来建设系统。
数据库:Mysql、MongoDB
数据仓库:GreenPlum、Teradata
数据湖:Hudi、Delta、Iceberg
仓湖一体:阿里云MaxCompute、火山引擎-LAS、华为云FusionInsigh
当前典型的湖仓一体的架构如下图所示:
蓝色数据流是离线数据流,实现离线数据湖能力,数据通过批量集成,存储到Hudi,再通过Spark进行加工。红色数据流是实时流,数据通过CDC实时捕获,通过Flink实时写入Hudi;通过Redis做变量缓存,以实现实时数据加工处理,之后送到诸如Clickhouse 、Redis、Hbase等专题集市里对外提供服务
从数据库、数据仓库、数据湖、再到湖仓一体其实整体的演进过程都是针对不同的业务需求逐步演进出来的。 LakeHouse是一种当前比较新数据管理范式,从根本上简化了企业数据基础架构,并且有望在机器学习已渗透到每个行业的时代加速创新。但是仓湖一体也不是万能药,相信在未来发展变化的过程中,会涌现出来更新的需求和架构来满足不同业务发展的诉求。
标题 | URL |
---|---|
What Is a Lakehouse? | https://databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html |
数据仓库是什么? | https://www.oracle.com/cn/database/what-is-a-data-warehouse/ |
数据湖(Data Lake) 总结 | https://zhuanlan.zhihu.com/p/91165577 |
什么是湖仓一体? | https://www.modb.pro/db/60180 |
火山引擎 | https://www.volcengine.com/product/las |
LakeHouse湖仓一体成为下一站灯塔,数仓、数据湖架构即将退出群聊 | http://www.5suns.cn/article/201 |
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。