Eclipse利用Hadoop平台实现统计单词个数_hadoop单词统计和去重eclip

作者：你好赵伟 | 2024-03-29 21:48:32

踩

hadoop单词统计和去重eclip

统计单词个数

要求

1.将待分析的文件（不少于10000英文单词）上传到HDFS
2.调用MapReduce对文件中各个单词出现的次数进行统计
3.将统计结果下载本地。

过程

1.首先启动hadoop,用jps判断是否启动成功，如果成功，则如下图所示在这里插入图片描述
2.递归创建/user/hadoop/input目录，将不少于10000字单词的文件上传到/user/hadoop/input目录下

3.打开eclipse进行配置，填写工作空间
4.选择 Window 菜单下的 Preference

5.切换 Map/Reduce 开发视图，选择 Window 菜单下选择 Open Perspective -> Other（CentOS 是 Window -> Perspective -> Open Perspective -> Other），弹出一个窗体，从中选择 Map/Reduce 选项即可进行切换在这里插入图片描述
6.建立与 Hadoop 集群的连接，点击 Eclipse软件右下角的 Map/Reduce Locations 面板，在面板中单击右键，选择 New Hadoop Location
7.在弹出来的 General 选项面板中，进行配置
8.在eclipse中创建MapReduce项目，点击 File 菜单，选择 New -> Project…，选择 Map/Reduce Project，点击 Next 在这里插入图片描述
9.填写 Project name ，点击 Finish 就创建好了项目
10.接着右键点击刚创建的 WordCount 项目，选择 New -> Class，需要填写两个地方：在 Package 处填写 org.apache.hadoop.examples；在 Name 处要填写

11.创建 Class 完成后，在 Project 的 src 中就能看到 lzWordCount.java 这个文件。将如下 lzWordCount 的代码复制到该文件中

package org.apache.hadoop.examples;
 
import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable1
2
3
4
5
6
7

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/337575