赞
踩
1、hadoop安装包,hadoop-2.7.3.tar
提码:1111
2、三台安装好jdk的虚拟机,jdk安装教程
3、所有主机都配置好主机名映射关系
vi /etc/hosts
输入自己三台虚拟机的ip 主机名():
192.168.174.140 ethan001
192.168.174.141 ethan003
192.168.174.142 ethan002
5、保证每台机器的时间是一样的
如果不一样的话,我们在执行MapReduce程序的时候可能会存在问题.。 解决方案:
tar -zvxf hadoop-2.7.3.tar.gz -C /opt/module/
vi /etc/profile
#hadoop
export HADOOP_HOME=/opt/module/hadoop-2.7.3
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
mkdir /opt/module/hadoop-2.7.3/tmp
集群部署规划
规划集群
(1) 修改haoop-env.sh 添加JAVA_HOME
命令:
vi /opt/module/hadoop-2.7.3/etc/hadoop/hadoop-env.sh
添加如下信息:
export JAVA_HOME=/opt/module/jdk1.8.0_171
(2) 核心配置文件
配置core-site.xml
vi core-site.xml
在文件中添加如下配置信息:
<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://ethan001:9000</value>
</property>
<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.7.3/data/tmp</value>
</property>
(3)配置hdfs-site.xml文件
vi hdfs-site.xml
添加如下配置信息:
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<!-- 指定Hadoop辅助名称节点主机配置 -->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>ethan003:50090</value>
</property>
(4) 配置yarn-site.xml文件
vi yarn-site.xml
添加如下配置信息:
<property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <!-- 指定YARN的ResourceManager的地址 --> <property> <name>yarn.resourcemanager.hostname</name> <value>ethan002</value> </property> <!-- 日志聚集功能使能 --> <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> <!-- 日志保留时间设置7天 --> <property> <name>yarn.log-aggregation.retain-seconds</name> <value>604800</value> </property> <!-- Site specific YARN configuration properties --> <property> <name>yarn.log.server.url</name> <value>http://ethan002:19888/jobhistory/logs</value> </property> <!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是true --> <property> <name>yarn.nodemanager.pmem-check-enabled</name> <value>false</value> </property> <!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true --> <property> <name>yarn.nodemanager.vmem-check-enabled</name> <value>false</value> </property>
(5)配置mapred-site.xml文件
vi mapred-site.xml
添加如下配置信息:
<property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>mapreduce.jobhistory.address</name> <value>ethan001:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>ethan001:19888</value> </property> <!--第三方框架使用yarn计算的日志聚集功能 --> <property> <name>yarn.log.server.url</name> <value>http://ethan001:19888/jobhistory/logs</value> </property>
(6)配置slaves文件
vi /opt/module/hadoop-2.7.3/etc/hadoop/slaves
添加如下信息(添加的是hadoop集群的DataNode节点的主机名):
ethan002
ethan003
(7) 将hadoop分发到其他节点
scp -r hadoop-2.7.3 root@ethan001:/opt/module/
scp -r hadoop-2.7.3 root@ethan003:/opt/module/
查看分发情况:
cat /opt/module/hadoop-2.7.3/etc/hadoop/core-site.xml
(8)格式化NameNode
hdfs namenode -format
输出的日志中有如下信息则成功
Storage directory /tmp/hadoop-root/dfs/name has been successfully formatted.
在ethan002上启动hadoop,因为yarn是配置在ethan002上的,只有在ethan002上启动集群时ResourceManager和nodeManager进程才会启动。
启动命令:
start-all.sh
查看进程
jps
浏览网页
hdfs:
http://ethan001:50070
yarn:
http://ethan002:8080
至此,hadoop集群的安装完成,主要的就是一定要先安装jdk
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。