构建一个Mapreduce作业_这一个mapreduce作业

作者：2023面试高手 | 2024-04-15 18:03:19

踩

这一个mapreduce作业

一、下载数据

这些数据即将作为mapreduce作业的输入

$ wget http://www.gutenberg.org/cache/epub/4300/pg4300.txt
$ wget http://www.gutenberg.org/files/5000/5000-8.txt
$ wget http://www.gutenberg.org/cache/epub/20417/pg20417.txt

并将下载到的三个.txt文件全放在本地的一个gutenberg文件夹下，假设放在/usr/local/hadoop/tmp/gutenberg下

二、启动hadoop集群

如果之前已经停止了hadoop，那么此时需要重新启动

/usr/local/hadoop/$ start-all.sh

三、将本地数据复制到HDFS

在我们运行mapreduce作业之前，需要先把输入数据复制到hadoop的文件系统HDFS

1.在hdfs中创建目录/user/hduser，-p代表创建路径中的各级父目录

/usr/local/hadoop$ hdfs dfs -mkdir -p /user/hduser/

2.将本地的gutenberg文件夹下的所有内容复制到HDFS中

/usr/local/hadoop$ bin/hadoop dfs -copyFromLocal ./tmp/gutenberg /user/hduser/

可以看到/user/hduser/下多了一个文件夹gutenberg

/usr/local/hadoop$ bin/hadoop fs -ls /user/hduser

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/2023面试高手/article/detail/429265