当前位置:   article > 正文

【大数据作业03】MapReduce的过程分析_mapreduce计算模型的核心是map函数和reduce函数,试述这两个函数各自的输入、

mapreduce计算模型的核心是map函数和reduce函数,试述这两个函数各自的输入、

5. MapReduce计算模型的核心是Map函数和Reduce函数,试述这两个函数各自的输入、输出以及处理过程。

Map函数的输入是来自于分布式文件系统的文件块,这些文件块的格式是任意的,可以是文档,也可以是二进制格式。文件块是一系列元素的集合,这些元素是任意类型的,同一个元素不能跨文件块存储。Map函数将输入的元素转换成<key,value形式的键值对,键和值的类型也是任意的,其中,键不同于一般的标志属性,即键没有唯一性,不能作为输出的身份标识,即使是同一输入元素,也可通过一个Map任务生成具有相同键的多个<key,value>。

Reduce 函数的任务就是将输入的一系列具有相同键的键值对以某种方式组合起来,输出处理后的键值对,输出结果会合并成一个文件。用户可以指定Reduce任务的个数(如n个),并通知实现系统,然后主控进程通常会选择一个Hash函数,Map任务输出的每个键都会经过Hash函数计算,并根据哈希结果将该键值对输入相应的Reduce任务来处理。对于处理键为k的Reduce任务的输入形式为<K,<V1,v2.……vn>>,输出为<k,V>。

6. 试述MapReduce的工作流程(需包括提交任务、Map, Shuffle, Reduce的过程)

①MapReduce 框架使用InputFormat模块做Map前的预处理,比如ÿ

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/838067
推荐阅读
相关标签
  

闽ICP备14008679号