赞
踩
MapReduce是一种计算模式,可以利用MapReduce实现系统来管理多个大规模的计算过程并且保障对硬件故障的容错性。
Hadoop是MapReduce的一种具体实现。
采用一种分而治之的思想进行处理,分为Map和Reduce两个任务。
Map任务是将输入的数据分块后,将每个块的数据变成一个个键值对,并输出键值对列表。
Reduce任务是做键值对的统计,每个Reduce统计一个值的所有个数,最后每个Reduce的输出合并形成MapReduce的输出结果。