赞
踩
一、了解Hadoop的示例程序包:
在本地目录中“$HADOOP_HOME/share/hadoop/mapreduce"下可以发现一个名为”hadoop-mapreduce-examples-2.6.4.jar"的示例程序包(我这里的Hadoop版本是2.6.4,所以程序包也是2.6.4),这个程序包里有一些自带的测试模块,这里我就不都列举了,可以自己查看自己的程序包下面的测试模块。其中wordcount适合对文件的数据进行登录次数的统计。
二、提交MapReduce任务给集群运行
1.提交MapReduce任务,通常使用hadoop jar命令。
例:hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4,jar wordcount /user/root/email_log.txt /user/root/output
对各参数代码解释如下:①$HADOOP_HOME:值主机中设置的环境变量(之前配置的/etc/profile的内容)。这里我的$HADOOP_HOME本地目录是/usr/local/hadoop-2.6.4
②hadoop-mapreduce-examples-2.6.4.jar:Hadoop官方提供的示例程序包,其中包括词频统计模块(wordcount)。
③wordcount:程序包中的主类名称,用于词频统计。
④/user/root/email_log.txt:HDFS上的输入文件名称
⑤/user/root/output:HDFS上的输出文件目录
理解了这些参数之后,即可向集群提交任务。这里我就不截图了,因为我之前做完了,再次向output这个目录提交的话会中断报错。
其中,job_*********表示此项任务的ID号,也被称为作业号;
*****INFO mapreduce.job:map0%,reduce0%:表示开始Map操作;
map100%,reduce0%:表示Map操作完成;
map100%,reduce100%:表示Reduce操作完成。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。