当前位置:   article > 正文

Hadoop基础操作--运行MapReduce任务

Hadoop基础操作--运行MapReduce任务

一、了解Hadoop的示例程序包:

        在本地目录中“$HADOOP_HOME/share/hadoop/mapreduce"下可以发现一个名为”hadoop-mapreduce-examples-2.6.4.jar"的示例程序包(我这里的Hadoop版本是2.6.4,所以程序包也是2.6.4),这个程序包里有一些自带的测试模块,这里我就不都列举了,可以自己查看自己的程序包下面的测试模块。其中wordcount适合对文件的数据进行登录次数的统计。

二、提交MapReduce任务给集群运行

        1.提交MapReduce任务,通常使用hadoop jar命令。

例:hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4,jar wordcount /user/root/email_log.txt /user/root/output

对各参数代码解释如下:①$HADOOP_HOME:值主机中设置的环境变量(之前配置的/etc/profile的内容)。这里我的$HADOOP_HOME本地目录是/usr/local/hadoop-2.6.4

                                       ②hadoop-mapreduce-examples-2.6.4.jar:Hadoop官方提供的示例程序包,其中包括词频统计模块(wordcount)。

                                       ③wordcount:程序包中的主类名称,用于词频统计。

                                       ④/user/root/email_log.txt:HDFS上的输入文件名称

                                       ⑤/user/root/output:HDFS上的输出文件目录

理解了这些参数之后,即可向集群提交任务。这里我就不截图了,因为我之前做完了,再次向output这个目录提交的话会中断报错。

其中,job_*********表示此项任务的ID号,也被称为作业号;

*****INFO mapreduce.job:map0%,reduce0%:表示开始Map操作;

                                            map100%,reduce0%:表示Map操作完成;

                                            map100%,reduce100%:表示Reduce操作完成。

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号