赞
踩
MapReduce编程组件
InputFormat组件
主要用于描述输入数据的格式,它提供两个功能,分别是 数据切分和为Mapper提供输入数据。 • InputFormat接口 getSplits()、createRecordReader。 • getSplits():将文件切片 minSize、maxSize、blockSize。
Mapper组件
实现Map任务的一个抽象基类,该基类提供了一个 map()方法。 • 继承Mapper类并重写map()方法 • hadoop数据类型。
Reducer组件
Map过程输出的键值对,将由Reducer组件进行合并处 理,最终的某种形式的结果输出。 • 继承Reducer类并重写reduce()方法。
Partitioner组件
Partitioner组件可以让Map对Key进行分区,从而可以 根据不同的key分发到不同的Reduce中去处理,其目的 就是将key均匀分布在ReduceTask上。
• getPatitioner()
• HashPartitioner
Combiner组件
Combiner组件的作用就是对Map阶段的输出的重复数 据先做一次合并计算,然后把新的(key,value)作为 Reduce阶段的输入。 • 继承Reducer类,重写reduce()方法。
OutputFormat组件
OutputFormat是一个用于描述MapReduce程序输出格 式和规范的抽象类。
• getRecordWriter()返回一个RecordWri
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。