当前位置:   article > 正文

Hadoop实战:明星搜索指数统计,找出人气王

Hadoop实战:明星搜索指数统计,找出人气王

项目介绍

        本项目我们使用明星搜索指数数据,分别统计出搜索指数最高的男明星和女明星。

数据集

明星搜索指数数据集,如下图所示。猛戳此链接下载数据集


思路分析

        基于项目的需求,我们通过以下几步完成:

1、编写 Mapper类,按需求将数据集解析为 key=gender,value=name+hotIndex,然后输出。

2、编写 Combiner 类,合并 Mapper 输出结果,然后输出给 Reducer。

3、编写 Partitioner 类,按性别,将结果指定给不同的 Reduce 执行。

4、编写 Reducer 类,分别统计出男、女明星的最高搜索指数。

5、编写 run 方法执行 MapReduce 任务。

MapReduce Java 项目

 设计的MapReduce如下所示:

Map = {key = gender, value = name+hotIndex}
Reduce = {key = name, value = gender+hotIndex}

Map

        每次调用map(LongWritable key, Text value, Context context)解析一行数据。每行数据存储在value参数值中。然后根据'\t'分隔符,解析出明星姓名,性别和搜索指数。

  1. public static class ActorMapper extends Mapper< Object, Text, Text, Text> {
  2. public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
  3. //value=name+gender+hotIndex
  4. String[] tokens = value.toString().split("\t");
  5. String gender = tokens[1].trim();//性别
  6. String nameHotIndex = tokens[0] + "\t" + tokens[2];//名称和搜索指数
  7. context.write(new Text(gender), new Text(nameHotIndex));
  8. }
  9. }

map()函数期望的输出结果Map = {key = gender, value = name+hotIndex}

Combiner

        对 map 端的输出结果,先进行一次合并,减少数据的网络输出。

  1. public static class ActorCombiner extends Reducer< Text, Text, Text, Text> {
  2. private Text text = new Text();
  3. @Override
  4. public void reduce(Text key, Iterable< Text> values, Context context) throws IOException, InterruptedException {
  5. int maxHotIndex = Integer.MIN_VALUE;
  6. int hotIndex = 0;
  7. String name="";
  8. for (Text val : values) {
  9. String[] valTokens = val.toString().split("\\t");
  10. hotIndex = Integer.parseInt(valTokens[1]);
  11. if(hotIndex>maxHotIndex){
  12. name = valTokens[0];
  13. maxHotIndex = hotIndex;
  14. }
  15. }
  16. text.set(name+"\t"+maxHotIndex);
  17. context.write(key, text);
  18. }
  19. }

Partitioner

        根据明星性别对数据进行分区,将 Mapper 的输出结果均匀分布在 reduce 上。

  1. public static class ActorPartitioner extends Partitioner< Text, Text> {
  2. @Override
  3. public int getPartition(Text key, Text value, int numReduceTasks) {
  4. String sex = key.toString();
  5. if(numReduceTasks==0)
  6. return 0;
  7. //性别为male 选择分区0
  8. if(sex.equals("male"))
  9. return 0;
  10. //性别为female 选择分区1
  11. if(sex.equals("female"))
  12. return 1 % numReduceTasks;
  13. //其他性别 选择分区2
  14. else
  15. return 2 % numReduceTasks;
  16. }
  17. }

Reduce

        调用reduce(key, Iterable< Text> values, context)方法来处理每个key和values的集合。我们在values集合中,计算出明星的最大搜索指数。

  1. public static class ActorReducer extends Reducer< Text, Text, Text, Text> {
  2. @Override
  3. public void reduce(Text key, Iterable< Text> values, Context context) throws IOException, InterruptedException {
  4. int maxHotIndex = Integer.MIN_VALUE;
  5. String name = " ";
  6. int hotIndex = 0;
  7. for (Text val : values) {
  8. String[] valTokens = val.toString().split("\\t");
  9. hotIndex = Integer.parseInt(valTokens[1]);
  10. if (hotIndex > maxHotIndex) {
  11. name = valTokens[0];
  12. maxHotIndex = hotIndex;
  13. }
  14. }
  15. context.write(new Text(name), new Text( key + "\t"+ maxHotIndex));
  16. }
  17. }

reduce()函数期望的输出结果Reduce = {key = name, value = gender+max(hotIndex)}

Run 驱动方法

        在 run 方法中,设置任务执行各种信息。

  1. public int run(String[] args) throws Exception {
  2. // TODO Auto-generated method stub
  3. Configuration conf = new Configuration();//读取配置文件
  4. Path mypath = new Path(args[1]);
  5. FileSystem hdfs = mypath.getFileSystem(conf);
  6. if (hdfs.isDirectory(mypath)) {
  7. hdfs.delete(mypath, true);
  8. }
  9. Job job = new Job(conf, "star");//新建一个任务
  10. job.setJarByClass(Star.class);//主类
  11. job.setNumReduceTasks(2);//reduce的个数设置为2
  12. job.setPartitionerClass(ActorPartitioner.class);//设置Partitioner类
  13. job.setMapperClass(ActorMapper.class);//Mapper
  14. job.setMapOutputKeyClass(Text.class);//map 输出key类型
  15. job.setMapOutputValueClass(Text.class);//map 输出value类型
  16. job.setCombinerClass(ActorCombiner.class);//设置Combiner类
  17. job.setReducerClass(ActorReducer.class);//Reducer
  18. job.setOutputKeyClass(Text.class);//输出结果 key类型
  19. job.setOutputValueClass(Text.class);//输出结果 value类型
  20. FileInputFormat.addInputPath(job, new Path(args[0]));// 输入路径
  21. FileOutputFormat.setOutputPath(job, new Path(args[1]));// 输出路径
  22. job.waitForCompletion(true);//提交任务
  23. return 0;
  24. }

编译和执行 MapReduce作业

1、myclipse将项目编译和打包为star.jar,使用SSH将 star.jar上传至hadoop的$HADOOP_HOME目录下。

2、使用cd $HADOOP_HOME切换到当前目录,通过命令行执行Hadoop作业

hadoop jar star.jar zimo.hadoop.Star.Star

运行结果

        你可以在DFS Locations界面下查看输出目录。


以上就是博主为大家介绍的这一板块的主要内容,这都是博主自己的学习过程,希望能给大家带来一定的指导作用,有用的还望大家点个支持,如果对你没用也望包涵,有错误烦请指出。如有期待可关注博主以第一时间获取更新哦,谢谢! 

 版权声明:本文为博主原创文章,未经博主允许不得转载。


声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号