Hadoop全分布环境搭建_规划hadoop全分布运行环境配置表

作者：Gausst松鼠会 | 2024-05-21 03:43:35

踩

规划hadoop全分布运行环境配置表

Hadoop全分布环境搭建

一、准备工作
二、开始安装配置
三、启动hadoop集群
四、验证

环境
Vmware+centos7+jdk8+hadoop-2.7.3
说明
hadoop全分布模式需要三台主机：ethan001,ethan002,ethan003
主机分布规划:
主节点：ethan001
从节点：ethan002 ethan003

一、准备工作

1、hadoop安装包，hadoop-2.7.3.tar
提码：1111
2、三台安装好jdk的虚拟机，jdk安装教程
3、所有主机都配置好主机名映射关系
vi /etc/hosts
输入自己三台虚拟机的ip 主机名()：

192.168.174.140 ethan001
192.168.174.141 ethan003
192.168.174.142 ethan002
1
2
3

4、三台主机之间配置好免密登录

5、保证每台机器的时间是一样的
如果不一样的话，我们在执行MapReduce程序的时候可能会存在问题.。解决方案：

搭建一个时间同步的服务器，网上很多教程可以使用

二、开始安装配置

安装和配置环境变量

在主机/opt/目录下创建两个目录：soft和module
mkdir /opt/soft /opt/module
将hadoop安装包上传到主机ethan002上的soft目录下
解压安装包到module目录下
tar -zvxf hadoop-2.7.3.tar.gz -C /opt/module/

配置环境变量
vi /etc/profile

#hadoop
export HADOOP_HOME=/opt/module/hadoop-2.7.3
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
1
2
3

创建tmp目录
mkdir /opt/module/hadoop-2.7.3/tmp

集群配置

集群部署规划

规划集群
(1) 修改haoop-env.sh 添加JAVA_HOME
命令:
vi /opt/module/hadoop-2.7.3/etc/hadoop/hadoop-env.sh
添加如下信息：
export JAVA_HOME=/opt/module/jdk1.8.0_171

(2) 核心配置文件
配置core-site.xml
vi core-site.xml
在文件中添加如下配置信息：

<!-- 指定HDFS中NameNode的地址 -->
<property>
		<name>fs.defaultFS</name>
      <value>hdfs://ethan001:9000</value>
</property>

<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
		<name>hadoop.tmp.dir</name>
		<value>/opt/module/hadoop-2.7.3/data/tmp</value>
</property>
1
2
3
4
5
6
7
8
9
10
11

(3)配置hdfs-site.xml文件
vi hdfs-site.xml
添加如下配置信息：

<property>
	<name>dfs.replication</name>
	<value>3</value>
</property>
<!-- 指定Hadoop辅助名称节点主机配置 -->
<property>
 	 <name>dfs.namenode.secondary.http-address</name>
   <value>ethan003:50090</value>
</property>
1
2
3
4
5
6
7
8
9

(4) 配置yarn-site.xml文件
vi yarn-site.xml
添加如下配置信息：

<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>

<!-- 指定YARN的ResourceManager的地址 -->
<property>
        <name>yarn.resourcemanager.hostname</name>
        <value>ethan002</value>
</property>
<!-- 日志聚集功能使能 -->
<property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
</property>

<!-- 日志保留时间设置7天 -->
<property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>604800</value>
</property>
<!-- Site specific YARN configuration properties -->
<property>
        <name>yarn.log.server.url</name>
        <value>http://ethan002:19888/jobhistory/logs</value>
</property>
<!--是否启动一个线程检查每个任务正使用的物理内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
<property>
    <name>yarn.nodemanager.pmem-check-enabled</name>
    <value>false</value>
</property>
<!--是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36

(5)配置mapred-site.xml文件
vi mapred-site.xml
添加如下配置信息:

	<property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
    </property>
    <property>
  	  		<name>mapreduce.jobhistory.address</name>
  	 		 <value>ethan001:10020</value>
    </property>
    <property>
            <name>mapreduce.jobhistory.webapp.address</name>
            <value>ethan001:19888</value>
    </property>
    <!--第三方框架使用yarn计算的日志聚集功能 -->
    <property>
            <name>yarn.log.server.url</name>
            <value>http://ethan001:19888/jobhistory/logs</value>
    </property>

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

(6)配置slaves文件
vi /opt/module/hadoop-2.7.3/etc/hadoop/slaves
添加如下信息(添加的是hadoop集群的DataNode节点的主机名)：

ethan002
ethan003
1
2

(7) 将hadoop分发到其他节点

scp -r hadoop-2.7.3 root@ethan001:/opt/module/
scp -r hadoop-2.7.3 root@ethan003:/opt/module/
1
2

查看分发情况:
cat /opt/module/hadoop-2.7.3/etc/hadoop/core-site.xml
(8)格式化NameNode
hdfs namenode -format
输出的日志中有如下信息则成功
Storage directory /tmp/hadoop-root/dfs/name has been successfully formatted.

三、启动hadoop集群

在ethan002上启动hadoop，因为yarn是配置在ethan002上的，只有在ethan002上启动集群时ResourceManager和nodeManager进程才会启动。
启动命令:
start-all.sh

四、验证

查看进程
jps
浏览网页
hdfs:
http://ethan001:50070

yarn:
http://ethan002:8080

至此，hadoop集群的安装完成，主要的就是一定要先安装jdk

如果您在阅读时发现存在错误，还请您帮忙指出，非常感谢

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/600676