当前位置:   article > 正文

使用hadoop-MapReduce统计文件中单词个数(每行一个单词)_hadoop自带单词统计jar包

hadoop自带单词统计jar包

第一步:写一个类用来统计文件中的个数。

第二步:因为mapreduce框架有默认实现,所以需要重写、覆盖mapreduce框架中map()和reduce()方法。

第三步:用main()方法当做mapreduce程序的入口,用来构建mapreduce框架,在main()方法中创建一个job任务。

第四步:使用maven的打包程序将代码打包成一个jar包。

第五步:将这个jar包传入到hadoop中使用,代码为:

hadoop jar jar包名 代码路径

(hadoop jar hadoop-1.0-SNAPSHOT.jar com.shujia.hadoop.MapReduceDemo01)

具体代码如下:

  1. import org.apache.hadoop.conf.Configuration;
  2. import org.apache.hadoop.fs.FileSystem;
  3. import org.apache.hadoop.fs.Path;
  4. import org.apache.hadoop.io.LongWritable;
  5. import org.apache.hadoop.io.Text;
  6. import org.apache.hadoop.mapreduce.Job;
  7. import org.apache.hadoop.mapreduce.Mapper;
  8. import org.apache.hadoop.mapreduce.Reducer;
  9. import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
  10. import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
  11. import java.io.IOException;
  12. public class MapReduceD
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/337601
推荐阅读
相关标签
  

闽ICP备14008679号