当前位置:   article > 正文

大数据技术应用4-2MapRuduce编程组件、运行模式、性能优化策略_mapreduce编程组件中,哪个组件主要用于描述输入数据的格式,什么组件主要用于

mapreduce编程组件中,哪个组件主要用于描述输入数据的格式,什么组件主要用于

MapReduce编程组件

 InputFormat组件

主要用于描述输入数据的格式,它提供两个功能,分别是 数据切分和为Mapper提供输入数据。 • InputFormat接口 getSplits()、createRecordReader。 • getSplits():将文件切片 minSize、maxSize、blockSize。

Mapper组件

实现Map任务的一个抽象基类,该基类提供了一个 map()方法。 • 继承Mapper类并重写map()方法 • hadoop数据类型。

Reducer组件

Map过程输出的键值对,将由Reducer组件进行合并处 理,最终的某种形式的结果输出。 • 继承Reducer类并重写reduce()方法。

Partitioner组件

Partitioner组件可以让Map对Key进行分区,从而可以 根据不同的key分发到不同的Reduce中去处理,其目的 就是将key均匀分布在ReduceTask上。

• getPatitioner()

• HashPartitioner

Combiner组件

Combiner组件的作用就是对Map阶段的输出的重复数 据先做一次合并计算,然后把新的(key,value)作为 Reduce阶段的输入。 • 继承Reducer类,重写reduce()方法。

OutputFormat组件

OutputFormat是一个用于描述MapReduce程序输出格 式和规范的抽象类。

• getRecordWriter()返回一个RecordWri

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Li_阴宅/article/detail/777835
推荐阅读
相关标签
  

闽ICP备14008679号