赞
踩
数据湖概念是2011年提出来的,最初数据湖是数据仓库的补充,是为了解决数据仓库漫长的开发周期,高昂的开发、维护成本,细节数据丢失等问题出现的。
数据湖大多是相对于传统基于RDBMS的数据仓库,而从2011年前后,也就是数据湖概念出现的时候,很多数据仓库逐渐迁移到以Hadoop为基础的技术栈上,而且除了结构化数据,半结构化、非结构数据也逐渐的存储到数据仓库中,并提供此类服务。这样的数据仓库,已经具有了数据湖的部分功能。
关于数据湖的定义,及与数据仓库的区别,目前业内还没有达成一致的认识,下面是几种定义
Hadoop不一定是数据湖的组成部分,只是它是目前最理想的选择。
#数据池通用结构
数据湖由多个数据池构成,而进到数据池的数据,虽不像数据仓库那样多的数据处理,但是如果不做任何处理,有什么样的数据,数据之间的关系,能做什么等等,都无法或者很难实现,所以数据还是需要做些处理。
数据经过转换,才能供用户使用。不同类别的数据,转换的重点也不同。
一些人总结的最佳实践,有利于我们在实施数据湖时,别做成数据垃圾湖。另一方面,能够大大减少我们实施数据湖所走的弯路。
数据湖需要为业务带来企业级数据仓库无法提供的价值
基础技术栈的短期及长期规划
一个共享平台,由多个业务线或者内部和外部利益相关者共同使用
数据湖的扩展功能
应该具备构建数据平台实践经验,有丰富的数据管理和数据治理经验
从服务提供、几乎零停机时间、可重复读取、处理、改变数据的角度,制定适当的服务水平协议
找到不同的感兴趣的业务涉众,为其展示数据湖的成功示例
数据湖将会成为下一代企业级数据技术的关键基础平台,企业需要提前计划如何将数据湖纳入长期策略
数据湖架构
Big Data Requires a Big, New Architecture
The Data Lake Dream
Data Lake vs Data Warehouse: Key Differences
数据湖的最佳实践
Dear CIO, what you have is NOT a Data Lake
Data Lake Plumbers: Operationalizing the Data Lake
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。