赞
踩
在目前世界数据总量飞速增长的大数据环境下,由于硬件限制,单个高性能计算机往往无法胜任处理工作,需要用高性能集群计算机, 将计算任务分布在成 百上千的机器上,以便在合理的时间内完成。对此需要一个适用 于计算机集群的编程模型—MapReduce。 MapReduce提供了一个接口,实现大规 模计算的自动并行化和分布。
MapReduce的计算主要由map和reduce两部分组成
Map函数是由用户编写的映射函数,对每一条数据进行特定处理映射到一个新的中间值,对分配到的数据集进行相同的映射处理,得到一系列的中间值集
Reduce函数也是由用户编写的处理函数,对map处理得出的一列中间值进行处理,合并操作,得到更小的集合。
分而治之:对相互之间不具有计算依赖关系的大数据,实现并行最自然的办法就是采取分而治之的策略。将庞大的大数据计算任务切分为大量的小子任务,这样不仅解决了大数据问题太大无法存在内存的问题,而且解决流式数据非同时处理的问题
对于流式的大数据问题,大部分数据往往是大量且无关,并且都进行重复的处理。所以可以使用map部份的特点进行处理。
而reduce是收集所有中间结果和产生最终输出。两者结合抽象构成大
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。