赞
踩
在过去大概两三年的时间里,数据湖与数据仓库开始出现非常强的相互融合的趋势,各自吸取对方的长处,进入到湖仓一体这样一个时代,已经变成目前的技术热点。
湖仓一体【LakeHouse】是一种新型开放式架构,将数据湖和数据仓库的优势充分结合,它构建在数据湖低成本的数据存储架构之上,又继承了数据仓库的数据处理和管理功能。
Data Lakehouse试图去融合数仓和数据湖这两者之间的差异,通过将数仓构建在数据湖上,使得存储变得更为廉价和弹性,同时lakehouse能够有效地提升数据质量,减小数据冗余
本文针对数据仓库 DataWarehouse、数据湖 DataLake进行对比,进而描述实现湖仓一体的两个流派。最后讲解湖仓一体的特性。
数据处理发展过程如下:
按照 5 个维度对比了数据湖和数据仓库体系
数据湖主要以离线批量计算为主,因为不支持数据仓库的数据管理能力,难以提高数据质量;
数据入湖时效差不支持实时更新,数据无法强一致性;
主题建模不友好,无法直接历史拉链建模;
同时交互分析通常将数据搬迁到数据仓库平台,造成分析链路长,数据冗余存储;
批 &流等场景融合不够,无法满足企业的海量数据处理诉求。
数据仓库满足不了非结构化数据的分析需求,性价比不高;
同时仓 &湖间难以互联互通,数据协同效率较低,无法支持跨平台透明访问,形成了事实上的数据孤岛,找数困难;
缺乏全局数据视图,不同平台接口差异和不同开发管理工具,造成用户开发使用复杂,
数据分别管理维护代价高体验差。
现在很多厂商考虑怎么在数据湖上应用更多数据仓库技术,反过来数据仓库厂商也希望用数据湖的技术使自己更开放,这两个技术在互相学习和融合,最终催生了一个新的技术热点:湖仓一体。
所以实现湖仓一体有2个流派:
将数据仓库MaxCompute和数据湖EMR
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。