当前位置:   article > 正文

构建一个Mapreduce作业_这一个mapreduce作业

这一个mapreduce作业

一、下载数据

这些数据即将作为mapreduce作业的输入

$ wget http://www.gutenberg.org/cache/epub/4300/pg4300.txt
$ wget http://www.gutenberg.org/files/5000/5000-8.txt
$ wget http://www.gutenberg.org/cache/epub/20417/pg20417.txt

并将下载到的三个.txt文件全放在本地的一个gutenberg文件夹下,假设放在/usr/local/hadoop/tmp/gutenberg下


二、启动hadoop集群

如果之前已经停止了hadoop,那么此时需要重新启动

/usr/local/hadoop/$ start-all.sh

三、将本地数据复制到HDFS

在我们运行mapreduce作业之前,需要先把输入数据复制到hadoop的文件系统HDFS

1.在hdfs中创建目录/user/hduser,-p代表创建路径中的各级父目录

/usr/local/hadoop$ hdfs dfs -mkdir -p /user/hduser/

2.将本地的gutenberg文件夹下的所有内容复制到HDFS中

/usr/local/hadoop$ bin/hadoop dfs -copyFromLocal ./tmp/gutenberg /user/hduser/

可以看到/user/hduser/下多了一个文件夹gutenberg

/usr/local/hadoop$ bin/hadoop fs -ls /user/hduser

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/429265
推荐阅读
相关标签
  

闽ICP备14008679号