赞
踩
编写 MR 程序,注意以下几点:
1、输入数据接口:InputFormat
2、逻辑处理接口:Mapper
根据需求,实现其中的三个方法:map()、setup()、cleanup()。
3、Partition 分区
4、Comparable 排序
5、Combiner 合并
Combiner合并可以提高程序的执行效率,减少 IO 传输。但是使用时,不能影响业务逻辑。
6、Reduce 端分组:GroupingComparator
在 Reduce 端对 key 进行分组。应用于:在接收的 key 为 bean 对象时候,想让一个或多个字段相同(全部字段比较不同)的 key 进入一个 reduce 方法时,可以采用分组排序。
7、逻辑处理接口:Reducer
用户根据业务需求实现其中三个方法:reduce()、setup()、cleanup()。
8、输出数据接口:OutputFormat
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。