赞
踩
官方概念就不在这里赘述了,以笔者的理解,所谓大数据,不是指绝对数据量很大,经常有人说 PB,TB级大数据处理技术等等。试想如果未来的硬件性能有跨越式发展,常规软件就能在短时间内对 PB 级数据进行捕捉、管理和处理,那么 PB 级的数据还叫大数据吗?
所谓大数据,是相对于存储能力和计算能力来讲的,当数据规模大到一定程度时,无法在一定时间范围内用常规软件工具进行捕捉、管理和处理,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力。
目前「分布式」是大数据场景的经典应用。当数据规模足够大,无法使用单台节点对齐处理时,那么就需要使用分布式技术来处理。分布式的核心思想就是「分而治之」。使用多个节点组成分布式系统,把海量数据切块,分发到不同的节点中,分别在不同的节点中进行存储,计算。使用分布式系统随之而来的问题就是分布式存储,分布式计算以及分布式通信。Hadoop是业界主流的开源分布式系统。
Hadoop:由Apache基金会所开发的分布式系统基础架构,其主要目的为解决分布式系统的存储、计算以及资源问题。如下图所示:
在 Hadoop1.x 时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大,在 Hadoop2.x 时代,增加了Yarn。Yarn只负责资源的调度,MapReduce只负责运算。
HDFS(Hadoop Distributed File System)即:Hadoop 分布式文件系统。负责分布式存储,其架构如图所示:
YARN 是Hadoop的资源调度框架。架构如图所示:
MapReduce 负责分布式计算。其将计算过程分为两个阶段:Map和Reduce,如图所示:
详见搭建手册.
大数据技术生态体系如图:
各框架简述:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。