赞
踩
转载:https://mathpretty.com/9655.html
我就挑一些重点来讲:
Hadoop的框架最核心的设计就是:HDFS和MapReduce。 HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
Hadoop 项目主要包含了以下四个模块:
如同 Facebook 在 Hadoop 的基础上衍生了 Hive 数据仓库一样,社区中还有大量与之相关的开源项目,下面列出了一些近期比较活跃的项目:
关于在win上部署Hadoop,可以参考下面这一篇文章:
我下面简单叙述一下:
首先我们需要安装Java环境,并配好Java的环境变量:
注意这里环境变量路径的设置,由于不能出现空格,故写成下面的样子:
环境变量可以用特殊的字符PROGRA~1代替从而达到替换空格方便使用的目的
我们在官网下载Hadoop并进行解压;
同时我们需要下载一个winutils,之后会有用到,下载地址:winutils下载:
下载完是下面这个样子的,我们在下载Hadoop的时候也注意下,下载的版本最好在winutils中也有;
接下来要修改 ./etc/hadoop下的一些配置文件
首先是core-site.xml:
接着是修改hdfs-site.xml:
接着修改yarn-site.xml:
接着修改mapred-site.xml:
在这里初始情况下文件名为mapred-site.xml.template,这时是不会启动 YARN的;
这是因为YARN 主要是为集群提供更好的资源管理与任务调度,然而这在单机上体现不出价值,反而会使程序跑得稍慢些。
最后修改hadoop-env.sh:
加上下面这个:
首先我们要对HDFS进行初始化,输出一下的命令:
hdfs namenode -format
我们需要进入hadoop/sbin目录,在终端执行下面两个文件:
此时Hadoop就算是启动完成了;
我们可以在浏览器中输入以下网址进行查看:http://localhost:50070
Note(注意!!):2.x的版本中文件管理的端口是50070,在3.0.0中替换为了9870端口;
在启动之后,我们就可以进行一些HDFS的基本操作了,我就演示一个(就是只截图一个,其余的把命令列在下面,方便查找和参考)
hadoop fs -put D:/a.txt /hadoop_learn
hadoop fs -put D:/a.txt D:/b.txt /hadoop_learn/
hadoop fs -rm -r /hadoop_learn
文件操作
hadoop fs -ls /hadoop_learn
hadoop fs -cat /hadoop_learn/a.txt
同时使用 file://开头可以访问本地的文件(不要忘记再加一个/),否则任何写到此的路径都会被识别为HDFS上的路径;
hadoop fs -cat file:///D:/b.txt
hadoop fs -cat /hadoop_learn/a.txt file:///D:/b.txt
hadoop fs -cp /hadoop_learn/a.txt /aa.txt
hadoop fs -mv /aa.txt /hadoop_learn/
hadoop fs -appendToFile D:/c.txt /hadoop_learn/aa.txt
hadoop fs -tail /hadoop_learn/aa.txt
hadoop fs -rm /hadoop_learn/aa.txt
目录操作
hadoop fs -mkdir /hadoop_learn
hadoop fs -mkdir -p /hadoop_learn/test/test
hadoop fs -du /hadoop_learn/
hadoop fs -get /hadoop_learn/aa.txt D:/
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。