当前位置:   article > 正文

Eclipse利用Hadoop平台实现统计单词个数_hadoop单词统计和去重eclip

hadoop单词统计和去重eclip

统计单词个数

要求

1.将待分析的文件(不少于10000英文单词)上传到HDFS
2.调用MapReduce对文件中各个单词出现的次数进行统计
3.将统计结果下载本地。

过程

1.首先启动hadoop,用jps判断是否启动成功,如果成功,则如下图所示在这里插入图片描述
2.递归创建/user/hadoop/input目录,将不少于10000字单词的文件上传到/user/hadoop/input目录下
在这里插入图片描述
3.打开eclipse进行配置,填写工作空间在这里插入图片描述
4.选择 Window 菜单下的 Preference
在这里插入图片描述
5.切换 Map/Reduce 开发视图,选择 Window 菜单下选择 Open Perspective -> Other(CentOS 是 Window -> Perspective -> Open Perspective -> Other),弹出一个窗体,从中选择 Map/Reduce 选项即可进行切换在这里插入图片描述
6.建立与 Hadoop 集群的连接,点击 Eclipse软件右下角的 Map/Reduce Locations 面板,在面板中单击右键,选择 New Hadoop Location在这里插入图片描述
7.在弹出来的 General 选项面板中,进行配置在这里插入图片描述
8.在eclipse中创建MapReduce项目,点击 File 菜单,选择 New -> Project…,选择 Map/Reduce Project,点击 Next在这里插入图片描述
9.填写 Project name ,点击 Finish 就创建好了项目在这里插入图片描述
10.接着右键点击刚创建的 WordCount 项目,选择 New -> Class,需要填写两个地方:在 Package 处填写 org.apache.hadoop.examples;在 Name 处要填写
在这里插入图片描述
11.创建 Class 完成后,在 Project 的 src 中就能看到 lzWordCount.java 这个文件。将如下 lzWordCount 的代码复制到该文件中

package org.apache.hadoop.examples;
 
import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/337575
推荐阅读
  

闽ICP备14008679号