赞
踩
一、下载数据
这些数据即将作为mapreduce作业的输入
$ wget http://www.gutenberg.org/cache/epub/4300/pg4300.txt
$ wget http://www.gutenberg.org/files/5000/5000-8.txt
$ wget http://www.gutenberg.org/cache/epub/20417/pg20417.txt
并将下载到的三个.txt文件全放在本地的一个gutenberg文件夹下,假设放在/usr/local/hadoop/tmp/gutenberg下
二、启动hadoop集群
如果之前已经停止了hadoop,那么此时需要重新启动
/usr/local/hadoop/$ start-all.sh
三、将本地数据复制到HDFS
在我们运行mapreduce作业之前,需要先把输入数据复制到hadoop的文件系统HDFS
1.在hdfs中创建目录/user/hduser,-p代表创建路径中的各级父目录
/usr/local/hadoop$ hdfs dfs -mkdir -p /user/hduser/
2.将本地的gutenberg文件夹下的所有内容复制到HDFS中
/usr/local/hadoop$ bin/hadoop dfs -copyFromLocal ./tmp/gutenberg /user/hduser/
可以看到/user/hduser/下多了一个文件夹gutenberg
/usr/local/hadoop$ bin/hadoop fs -ls /user/hduser
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。