当前位置:   article > 正文

MapReduce总结_mapreduce实验总结和心得

mapreduce实验总结和心得

MapReduce简介

1)作用

在目前世界数据总量飞速增长的大数据环境下,由于硬件限制,单个高性能计算机往往无法胜任处理工作,需要用高性能集群计算机, 将计算任务分布在成 百上千的机器上,以便在合理的时间内完成。对此需要一个适用 于计算机集群的编程模型—MapReduce。 MapReduce提供了一个接口,实现大规 模计算的自动并行化和分布。

2) 基本模型构成

MapReduce的计算主要由map和reduce两部分组成

map

Map函数是由用户编写的映射函数,对每一条数据进行特定处理映射到一个新的中间值,对分配到的数据集进行相同的映射处理,得到一系列的中间值集

reduce

Reduce函数也是由用户编写的处理函数,对map处理得出的一列中间值进行处理,合并操作,得到更小的集合。

3)运行原理

大数据处理

分而治之:对相互之间不具有计算依赖关系的大数据,实现并行最自然的办法就是采取分而治之的策略。将庞大的大数据计算任务切分为大量的小子任务,这样不仅解决了大数据问题太大无法存在内存的问题,而且解决流式数据非同时处理的问题

实现

对于流式的大数据问题,大部分数据往往是大量且无关,并且都进行重复的处理。所以可以使用map部份的特点进行处理。
而reduce是收集所有中间结果和产生最终输出。两者结合抽象构成大

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/754580
推荐阅读
  

闽ICP备14008679号