赞
踩
目录
服务名称 | 作用 | 隶属服务 |
Name Node | 处理用户进程,管理元数据,集群Web UI服务 | |
Data Node | 保存与管理数据块 | |
Secondary Name Node | 帮助Name Node处理元数据合并工作 | |
Resource Manager | 分配与管理资源调度任务,管理Node Manager | Yarn |
Node Manager | 执行用户提交的job |
伪分布式就是使用一台主机搭建一个只有一台主机可对外服务的Hadoop集群,对于我们来说,搭建一个伪分布式是最优选择,最大化的节约资源,搭建难度极低,耗费时间不多,本次的配置项针对一台主机,且配置文件仅仅需要更改参数便可立即使用
JDK下载
在JDK下载官网,可选择不同的版本,要注意,JDK在Linux与Windows中是不同的
Windows
Linux
图表 1 JDK解压目录结构
输入命令:vim /etc/profile 或 vi /etc/profile
图表 2 profile环境变量配置
- export JAVA_HOME=JDK的目录(具体见图1)
-
- export PATH=$JAVA_HOME/bin:$PATH
Hadoop在Apache基金会开源,这里就是下载地址,下载之后是一个压缩包,需要解压,并进行配置
图表 3 hadoop解压目录结构
- export HADOOP_HOME=Hadoop的解压目录
- export PATH=$HADOOP_HOME/bin:$PATH
图表 4 hadoop-env.sh中的配置
配置项写的有些冗余,因为我之前搭建过其它东西,不用担心,他们对于Hadoop并没有太大影响,这里的配置有利于使用hadoop的一键启动,不需要通过daemon方式启动,简便许多
- export JAVA_HOME=/liming_zhao/java_1.8
- export DHFS_NAMENODE_USER="root"
- export DHFS_DATANODE_USER="root"
- export HDFS_SECONDARYNAMENODE_USER="root"
- export YARN_RESOURCEMANAGER_USER="root"
- export YARN_NODEMANAGER_USER="root"
- export HDFS_JOURNALNODE_USER="root"
- export HDFS_ZKFC_USER="root"
图表 5 core-site.xml配置文件
- <configuration>
- <property>
- <name>fs.defaut.name</name>
- <value>hdfs://127.0.0.1:9000</value>
- </property>
- </configuration>
图表 6 hdfs-site.xml
- <configuration>
- <property>
- <name>dfs.namenode.name.dir</name>
- <value>file:///data/nndir</value>
- </property>
- <property>
- <name>dfs.datanode.data.dir</name>
- <value>file:///data/dndir</value>
- </property>
- </configuration>
- <configuration>
- <!-- rm的地址 -->
- <property>
- <name>yarn.resourcemanager.hostname</name>
- <value>127.0.0.1</value>
- </property>
-
- <!-- 指定reduce的方式 这里是MR的Shuffle-->
- <property>
- <name>yarn.resoucemanager.aux-service</name>
- <value>mapreduce_shuffle</value>
- </property>
-
- <!-- 指定yarn的rm数据本地存储目录-->
- <property>
- <name>yarn.resourcemanager.local-dirs</name>
- <value>file:///data/rmdir</value>
- </property>
- </configuration>
- <configuration>
- <!-- 指定分布式计算使用的模式是yarn local是本地模式 -->
- <property>
- <name>mapreduce.framework.name</name>
- <value>yarn</value>
- </property>
-
- <!--Map App Master环境变量-->
- <property>
- <name>yarn.app.mapreduce.am.env</name>
- <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
- </property>
-
-
- <!--MR MapTask环境变量-->
- <property>
- <name>mapreduce.map.env</name>
- <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
- </property>
-
-
- <!--Map ReduceTask环境变量-->
- <property>
- <name>mapreduce.reduce.env</name>
- <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
- </property>
- </configuration>
Windows的文件系统与Linux的文件系统相差过大,因此直接在搭建好hadoop之后很可能不会成功运行,报错如下
Window中的jdk环境与Linux中稍有不同,有可能会因为内存问题导致发生如下错误
本次的介绍就到这里啦,希望大家可以有好的开始!!伪分布式搭建Hadoop是比较方便的一种方式,作为大数据的基础功夫,加油!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。