赞
踩
Hadoop离线是大数据生态圈的核心与基石,是整个大数据开发的入门。本次分享内容让初学者能高效、快捷掌握Hadoop必备知识,大大缩短Hadoop离线阶段学习时间,下面一起开始今天的学习!
一个比较形象的语言解释MapReduce
要数停车场中的所有停放车的总数量。
你数第一列,我数第二列 …这就是Map阶段, 人越多,能够同时数车的人就越多,速度就越快。
数完之后,聚到一起,把所有人的统计数加在一起。这就是Reduce合并汇总阶段。
对相互间不具有计算依赖关系的大数据计算任务,实现并行最自然的办法就是采取MapReduce分而治之的策略。
首先Map阶段进行拆分, 把大数据拆分成若干份小数据,多个程序同时并行计算产生中间结果;然后是Reduce聚合阶段,通过程序对并行的结果进行最终的汇总计算,得出最终的结果。
不可拆分的计算任务或相互间有依赖关系的数据无法进行并行计算!
MapReduce借鉴了函数式语言中的思想,用Map和Reduce两个函数提供了高层的并行编程抽象模型。 map: 对一组数据元素进行某种重复式的处理;
reduce: 对Map的中间结果进行某种进一步的结果整理。
map: (k1; v1) → (k2; v2)
reduce: (k2; [v2]) → (k3; v3)
如何提供统一的计算框架,如果没有统一封装底层细节,那么程序员则需要考虑诸如数据存储、划分、分发、结果收集、错误恢复等诸多细节;为此, MapReduce设计并提供了统一的计算框架,为程序员隐藏了绝大多数系统层 面的处理细节。
MapReduce最大的亮点在于通过抽象模型和计算框架把需要做什么(what need to do)与具体怎么做(howtodo)分开了,为程序员提供一个抽象和高层的编程接口和框架。
程序员仅需要关心其应用层的具体计算问题, 仅需编写少量的处理应用本身计算问题的业务程序代码。
至于如何具体完成这个并行计算任务所相关的诸多系统层细节被隐藏起来,交给计算框架去处理:从分布代码的执行,到大到数千小到单个节点集群的自动调度使用。
分布式计算是一种计算方法,和集中式计算是相对的。
随着计算技术的发展,有些应用需要非常巨大的计算能力才能完成,如果采用集中式计算,需要耗费相当长的时间来完成。
分布式计算将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。
Hadoop MapReduce是一个分布式计算框架,用于轻松编写分布式应用程序, 这些应用程序以可靠,容错的方式并行处理大型硬件集群(数千个节点) 上的大量数据(多TB数据集)。
MapReduce是一种面向海量数据处理的一种指导思想,也是一种用于对大规模数据进行分布式计算的编程模型。
MapReduce最早由Google于2004年在一篇名为《MapReduce:Simplified Data Processingon Large Clusters》的论文中提出。
论文中谷歌把分布式数据处理的过程拆分为Map和Reduce两个操作函数(受到函数式编程语言的启发), 随后被Apache Hadoop参考并作为开源版本提供支持,叫做Hadoop MapReduce。
它的出现解决了人们在最初面临海量数据束手无策的问题, 同时它还是易于使用和高度可扩展的,使得开发者无需关系分布式系统底层的复杂性即可很容易的编写分布式数据处理程序,并在成千上万台普通的商用服务器中运行。
Mapreduce框架提供了用于二次开发的接口; 简单地实现一些接口,就可以完成一个分布式程序。任务计算交给计算 框架去处理,将分布式程序部署到hadoop集群上运行,集群节点可以扩展到成百上千个等。
当计算机资源不能得到满足的时候,可以通过增加机器来扩展它的计算能力。基于MapReduce的分布式计算得特点可 以随节点数目增长保持近似于线性的增长,这个特点是MapReduce处理海量数据的关键,通过将计算节点增至几百或 者几千可以很容易地处理数百TB甚至PB级别的离线数据。
Hadoop集群是分布式搭建和部署得,任何单一机器节点宕机了,它可以把上面的计算任务转移到另一个节点上运行, 不影响整个作业任务得完成,过程完全是由Hadoop内部完成的。
可以处理GB、TB和PB级别得数据量
MapReduce虽然有很多的优势,也有相对得局限性, 局限性不代表不能做,而是在有些场景下实现的效果比较差,并 不适合用MapReduce来处理,主要表现在以下结果方面:
MapReduce主要应用于离线作业,无法作到秒级或者是亚秒级得数据响应。
流式计算特点是数据是源源不断得计算,并且数据是动态的;而MapReduce作为一个离线计算框架,主要是针对静态 数据集得,数据是不能动态变化得。
一个MapReduce编程模型中只能包含一个Map阶段和一个Reduce阶段,或者只有Map阶段;
不能有诸如多个map阶段、多个reduce阶段的情景出现;
如果用户的业务逻辑非常复杂, 那就只能多个MapReduce程序串行运行。
注意: 整个MapReduce程序中,数据都是以kv键值对的形式流转的;
在实际编程解决各种业务问题中,需要考虑每个阶段的输入输出kv分别是什么;
MapReduce内置了很多默认属性,比如排序、分组等,都和数据的k有关,所以说kv的类型数据确定及其重要的;
一个最终完整版本的MR程序需要用户编写的代码和Hadoop自己实现的代码整合在一起才可以;
其中用户负责map、 reduce两个阶段的业务问题, Hadoop负责底层所有的技术问题;
由于MapReduce计算引擎天生的弊端(慢) ,当下企业中直接使用率已经日薄西山了,所以在企业中工作很少涉及到MapReduce直接编程,但是某些软件的背后还依赖MapReduce引擎。
可以通过官方提供的示例来感受MapReduce及其内部执行流程, 因为后续的新的计算引擎比如Spark,当中就有MapReduce深深的影子存在。
第一个参数: pi表示MapReduce程序执行圆周率计算任务;
第二个参数:用于指定map阶段运行的任务task次数, 并发度, 这里是10;
第三个参数:用于指定每个map任务取样的个数,这里是50。
WordCount算是大数据计算领域经典的入门案例, 相当于Hello World。
虽然WordCount业务极其简单,但是希望能够通过案例感受背后MapReduce的执行流程和默认的行为机制,这才是关键。
map阶段的核心:把输入的数据经过切割,全部标记1, 因此输出就是<单词, 1>。
shuffle阶段核心: 经过MR程序内部自带默认的排序分组等功能,把key相同的单词会作为一组数据构成新的kv对。
reduce阶段核心:处理shuffle完的一组数据,该组数据就是该单词所有的键值对。 对所有的1进行累加求和,就是单词的总次。
hadoop fs -put 1.txt /input
第一个参数: wordcount表示执行单词统计任务;
第二个参数:指定输入文件的路径;
第三个参数:指定输出结果的路径(该路径不能已存在);
第一阶段:把输入目录下文件按照一定的标准逐个进行逻辑切片, 形成切片规划。
默认Split size = Block size ( 128M) ,每一个切片由一个MapTask处理。(getSplits)
第二阶段:对切片中的数据按照一定的规则读取解析返回<key,value>对。
默认是按行读取数据。 key是每一行的起始位置偏移量, value是本行的文本内容。(TextInputFormat)
第三阶段:调用Mapper类中的map方法处理数据。每读取解析出来的一个<key,value>, 调用一次map方法。
第四阶段:按照一定的规则对Map输出的键值对进行分区partition。默认不分区,因为只有一个reducetask。 分区的数量就是reducetask运行的数量。
第五阶段: Map输出数据写入内存缓冲区,达到比例溢出到磁盘上。溢出spill的时候根据key进行排序sort。
默认根据key字典序排序。
第六阶段:对所有溢出文件进行最终的merge合并,成为一个文件。
Shuffle的本意是洗牌、混洗的意思,把一组有规则的数据尽量打乱成无规则的数据。
而在MapReduce中, Shuffle更像是洗牌的逆过程,指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据,以便reduce端接收处理。
一般把从Map产生输出开始到Reduce取得数据作为输入之前的过程称作shuffle。
Collect阶段:将MapTask的结果收集输出到默认大小为100M的环形缓冲区,保存之前会对key进行分区的计算,默认Hash分区。
Spill阶段:当内存中的数据量达到一定的阀值的时候, 就会将数据写入本地磁盘, 在将数据写入磁盘之前需要对数据进行一次排序的操作, 如果配置了combiner,还会将有相同分区号和key的数据进行排序。
Merge阶段:把所有溢出的临时文件进行一次合并操作, 以确保一个MapTask最终只产生一个中间数据文件。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。