当前位置:   article > 正文

centos7安装hadoop集群_centos7.6部署hadoop3.8集群

centos7.6部署hadoop3.8集群

一、准备工作

准备3台centOS 7

虚拟机的安装我这边就不写了,给两个教程链接把:
centOS7安装教程:https://www.centos.net.cn/archive/1518
centOS7下载:下载 CentOS中文站 - 专注Linux技术
(Tip:安装完一个虚拟机之后,剩下的两个可以进行克隆,右键就行)

关闭防火墙:
systemctl stop firewalld.service
 禁用防火墙:systemctl disable firewalld.service
查看防火墙状态firewall-cmd --state
重启 reboot

二、实现三台机器ssh免密码登录

首先,你要确保知道你的三台机子的名称和ip
比如:我的三台分别是

  1. 192.168.20.131 hadoop01
  2. 192.168.20.132 hadoop02 
  3. 192.168.20.133 hadoop03 

1.检查机器的名称和IP

检查机器名称

用root账户登录,然后使用hostname命令查看机器名称

  1. [root@localhost etc]# hostname
  2. localhost.localdomain
  3. [root@localhost etc]#

把他修改成我们想要的名称

hostname   hadoop01

修改之后检查一下,如果修改不成功,可以进入配置文件进行名称的修改。

vim /etc/hostname          ##用vi进行修改

类似的,将其他两个机器,分别改名为hadoop02和hadoop03

检查IP

使用ifconfig来检查电脑的ip

  1. [root@hadoop01 etc]# ifconfig
  2. ens33: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
  3. inet 10.25.0.165 netmask 255.255.254.0 broadcast 10.25.1.255
  4. inet6 fe80::57c1:8afa:60e5:4cc7 prefixlen 64 scopeid 0x20<link>
  5. ether 00:0c:29:92:e6:51 txqueuelen 1000 (Ethernet)
  6. RX packets 370188 bytes 428647745 (408.7 MiB)
  7. RX errors 0 dropped 0 overruns 0 frame 0
  8. TX packets 52416 bytes 15864915 (15.1 MiB)
  9. TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
  10. lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
  11. inet 127.0.0.1 netmask 255.0.0.0
  12. inet6 ::1 prefixlen 128 scopeid 0x10<host>
  13. loop txqueuelen 1000 (Local Loopback)
  14. RX packets 987 bytes 105906 (103.4 KiB)
  15. RX errors 0 dropped 0 overruns 0 frame 0
  16. TX packets 987 bytes 105906 (103.4 KiB)
  17. TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
  18. virbr0: flags=4099<UP,BROADCAST,MULTICAST> mtu 1500
  19. inet 192.168.122.1 netmask 255.255.255.0 broadcast 192.168.122.255
  20. ether 52:54:00:d6:35:d0 txqueuelen 1000 (Ethernet)
  21. RX packets 0 bytes 0 (0.0 B)
  22. RX errors 0 dropped 0 overruns 0 frame 0
  23. TX packets 0 bytes 0 (0.0 B)
  24. TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
  25. [root@hadoop01 etc]#

如果你的虚拟机使用的是桥接的,ifconfig之后你还是不确定你的IP,建议使用CRT工具连接试试,能够成功联通的就是正确的IP。

2.修改/etc/hosts文件

修改三台机器的/etc/hosts文件,在里面添加如下内容(添加就行了,不需要删除)
修改方法:可以使用vim命令,也可以再写一个hosts文件,拿到linux上覆盖。

  1. 10.25.0.165 hadoop01
  2. 10.25.0.221 hadoop02
  3. 10.25.0.232 hadoop03

Tip:IP地址不需要和我的一样,这里只是做一个映射。
配置完成后使用ping命令检查这3个机器是否相互ping得通(互相检查一下)。

  1. [root@hadoop01 etc]# ping -c 3 hadoop02
  2. PING hadoop02 (10.25.0.221) 56(84) bytes of data.
  3. 64 bytes from hadoop02 (10.25.0.221): icmp_seq=1 ttl=64 time=0.416 ms
  4. 64 bytes from hadoop02 (10.25.0.221): icmp_seq=2 ttl=64 time=0.431 ms
  5. 64 bytes from hadoop02 (10.25.0.221): icmp_seq=3 ttl=64 time=0.458 ms
  6. --- hadoop02 ping statistics ---
  7. 3 packets transmitted, 3 received, 0% packet loss, time 2003ms
  8. rtt min/avg/max/mdev = 0.416/0.435/0.458/0.017 ms
  9. [root@hadoop01 etc]#

ping得通,说明机器是互联的,hosts配置正确。

3.给3个机器生成秘钥文件

以hadoop01为例,执行命令,生成空字符串的秘钥(后面要使用公钥),命令是:

ssh-keygen  -t   rsa   -P  ''

如图(我自己的已经弄好了,所以网上找了个图):

因为我现在用的是root账户,所以秘钥文件保存到了/root/.ssh/目录内,可以使用命令查看,命令是:

  1. [root@hadoop01 .ssh]# ls /root/.ssh/
  2. id_rsa id_rsa.pub
  3. [root@hadoop01 .ssh]#

要有两个文件,使用同样的方法为hadoop02和hadoop03生成秘钥(命令完全相同,不用做如何修改)。

4.在hadoop01上创建authorized_keys文件

接下来要做的事情是在3台机器的/root/.ssh/目录下都存入一个内容相同的文件,文件名称叫authorized_keys,文件内容是我们刚才为3台机器生成的公钥。
即:把刚刚的三个公钥,汇总成一个文件,放到三台机器里面。
首先创建文件:

touch  /root/.ssh/authorized_keys

查看下,是否创建成功

  1. [root@hadoop01 .ssh]# ls /root/.ssh/
  2. authorized_keys id_rsa id_rsa.pub
  3. [root@hadoop01 .ssh]#

汇总公钥,即汇总/root/.ssh/id_rsa.pub文件内容,到authorized_keys 的办法有很多,一个是用cat和vim命令,一个是本地编辑好后丢到各个机器上面。
我这边是这样的:

5.将authorized_keys文件复制到其他机器

将authorized_keys复制到其他机器,可以使用可视化工具,比如FlashFXP。最后呈现的结果是三个机器都如图所示

6.进行免密码登陆测试

前面搞了这么多就是为了让他们通起来,这就来测试下吧!
在hadoop01上面进行测试:

  1. [root@hadoop01 ~]# ssh hadoop02
  2. Last login: Fri Jul 13 01:34:06 2018 from hadoop03
  3. [root@hadoop02 ~]# exit
  4. 登出
  5. Connection to hadoop02 closed.
  6. [root@hadoop01 ~]#

当然,第一次登录可能要按一次回车,如图

三台机器之间可以互多测试几遍

三、安装jdk和hadoop

1.安装jdk

见我的另外一篇教程
https://www.jianshu.com/p/a243fc5f0fc5

2.下载hadoop

http://hadoop.apache.org/releases.html
选择合适的版本进行下载,我这边使用的是2.91
http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.9.1/hadoop-2.9.1.tar.gz

3.上传文件并进行解压

在opt目录下新建一个名为hadoop的目录,并将下载得到的hadoop-2.9.1.tar.gz上载到该目录下。
进入该目录,并进行解压操作:

  1. [root@hadoop01 ~]# cd /opt/hadoop
  2. [root@hadoop01 hadoop]# tar -xvf hadoop-2.9.1.tar.gz

在三台机器上重复这一操作。
在/root目录下新建几个目录,复制粘贴执行下面的命令:

  1. mkdir /root/hadoop
  2. mkdir /root/hadoop/tmp
  3. mkdir /root/hadoop/var
  4. mkdir /root/hadoop/dfs
  5. mkdir /root/hadoop/dfs/name
  6. mkdir /root/hadoop/dfs/data

4.修改一大堆的配置文件

进入/opt/hadoop/hadoop-2.9.1/etc/hadoop/
主要修改的配置文件都在这里,我们可以看一下。

  1. [root@hadoop01 hadoop]# ls /opt/hadoop/hadoop-2.9.1/etc/hadoop/
  2. capacity-scheduler.xml core-site.xml hadoop-metrics2.properties hdfs-site.xml httpfs-signature.secret kms-env.sh log4j.properties mapred-queues.xml.template slaves yarn-env.cmd
  3. configuration.xsl hadoop-env.cmd hadoop-metrics.properties httpfs-env.sh httpfs-site.xml kms-log4j.properties mapred-env.cmd mapred-site.xml ssl-client.xml.example yarn-env.sh
  4. container-executor.cfg hadoop-env.sh hadoop-policy.xml httpfs-log4j.properties kms-acls.xml kms-site.xml mapred-env.sh mapred-site.xml.template ssl-server.xml.example yarn-site.xml
  5. [root@hadoop01 hadoop]#

下面进行配置文件的修改,用vim命令(或者文件替换,和上面的操作一样)

!!!细节提示:以下配置文件中,带有hadoop01的,你们都需要替换成自己配置的主机名称,以下的配置只需要配置hadoop01机器,其余两台复制即可

1) 修改core-site.xml

在<configuration>节点内加入配置:

  1. <property>
  2. <name>hadoop.tmp.dir</name>
  3. <value>/root/hadoop/tmp</value>
  4. <description>Abase for other temporary directories.</description>
  5. </property>
  6. <property>
  7. <name>fs.default.name</name>
  8. <value>hdfs://hadoop01:9000</value>
  9. </property>

2)修改hadoop-env.sh

export   JAVA_HOME=${JAVA_HOME}

修改为:

export   JAVA_HOME=/opt/java/jdk1.8.0_171

说明:修改为自己的JDK路径

3)修改hdfs-site.xml

在<configuration>节点内加入配置:

  1. <property>
  2. <name>dfs.name.dir</name>
  3. <value>/root/hadoop/dfs/name</value>
  4. <description>Path on the local filesystem where theNameNode stores the namespace and transactions logs persistently.</description>
  5. </property>
  6. <property>
  7. <name>dfs.data.dir</name>
  8. <value>/root/hadoop/dfs/data</value>
  9. <description>Comma separated list of paths on the localfilesystem of a DataNode where it should store its blocks.</description>
  10. </property>
  11. <property>
  12. <name>dfs.replication</name>
  13. <value>2</value>
  14. </property>
  15. <property>
  16. <name>dfs.permissions</name>
  17. <value>false</value>
  18. <description>need not permissions</description>
  19. </property>

说明(这一段我是抄的,不是很理解,总之,我写的是true):dfs.permissions配置为false后,可以允许不要检查权限就生成dfs上的文件,方便倒是方便了,但是你需要防止误删除,请将它设置为true,或者直接将该property节点删除,因为默认就是true。

4)新建并且修改mapred-site.xml

该版本中,有一个名为mapred-site.xml.template的文件,复制该文件,然后改名为mapred-site.xml,命令是:

cp   /opt/hadoop/hadoop-2.9.1/etc/hadoop/mapred-site.xml.template     /opt/hadoop/hadoop-2.9.1/etc/hadoop/mapred-site.xml

修改这个新建的mapred-site.xml文件,在<configuration>节点内加入配置:

  1. <property>
  2. <name>mapred.job.tracker</name>
  3. <value>hadoop01:49001</value>
  4. </property>
  5. <property>
  6. <name>mapred.local.dir</name>
  7. <value>/root/hadoop/var</value>
  8. </property>
  9. <property>
  10. <name>mapreduce.framework.name</name>
  11. <value>yarn</value>
  12. </property>

5) 修改workers文件

 
执行命令 vi /opt/hadoop/hadoop-3.2.0/etc/hadoop/workers 命令,将里面的localhost删除,添加如下内容:

Hadoop01

Hadoop02

Hadoop03

说明:这个只需要修改hadoop01主机,另外两台不需要修改!!!

6)修改yarn-site.xml文件

修改/opt/hadoop/hadoop-2.9.1/etc/hadoop/yarn-site.xml文件, 在<configuration>节点内加入配置(注意了,内存根据机器配置越大越好,我这里只配2个G是因为机器不行):

  1. <property>
  2. <name>yarn.resourcemanager.hostname</name>
  3. <value>hadoop01</value>
  4. </property>
  5. <property>
  6. <description>The address of the applications manager interface in the RM.</description>
  7. <name>yarn.resourcemanager.address</name>
  8. <value>${yarn.resourcemanager.hostname}:8032</value>
  9. </property>
  10. <property>
  11. <description>The address of the scheduler interface.</description>
  12. <name>yarn.resourcemanager.scheduler.address</name>
  13. <value>${yarn.resourcemanager.hostname}:8030</value>
  14. </property>
  15. <property>
  16. <description>The http address of the RM web application.</description>
  17. <name>yarn.resourcemanager.webapp.address</name>
  18. <value>${yarn.resourcemanager.hostname}:8088</value>
  19. </property>
  20. <property>
  21. <description>The https adddress of the RM web application.</description>
  22. <name>yarn.resourcemanager.webapp.https.address</name>
  23. <value>${yarn.resourcemanager.hostname}:8090</value>
  24. </property>
  25. <property>
  26. <name>yarn.resourcemanager.resource-tracker.address</name>
  27. <value>${yarn.resourcemanager.hostname}:8031</value>
  28. </property>
  29. <property>
  30. <description>The address of the RM admin interface.</description>
  31. <name>yarn.resourcemanager.admin.address</name>
  32. <value>${yarn.resourcemanager.hostname}:8033</value>
  33. </property>
  34. <property>
  35. <name>yarn.nodemanager.aux-services</name>
  36. <value>mapreduce_shuffle</value>
  37. </property>
  38. <property>
  39. <name>yarn.scheduler.maximum-allocation-mb</name>
  40. <value>2048</value>
  41. <discription>每个节点可用内存,单位MB,默认8182MB</discription>
  42. </property>
  43. <property>
  44. <name>yarn.nodemanager.vmem-pmem-ratio</name>
  45. <value>2.1</value>
  46. </property>
  47. <property>
  48. <name>yarn.nodemanager.resource.memory-mb</name>
  49. <value>2048</value>
  50. </property>
  51. <property>
  52. <name>yarn.nodemanager.vmem-check-enabled</name>
  53. <value>false</value>
  54. </property>

说明:yarn.nodemanager.vmem-check-enabled这个的意思是忽略虚拟内存的检查,如果你是安装在虚拟机上,这个配置很有用,配上去之后后续操作不容易出问题。如果是实体机上,并且内存够多,可以将这个配置去掉。

注意:如果启动过程中出现ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation. Starting datanodes则进行下面操作

配置hadoop-3.2.0/sbin/目录下start-dfs.sh、start-yarn.sh、stop-dfs.sh、stop-yarn.sh文件
 
  在start-dfs.sh、stop-dfs.sh开始第一行加上

  1. HDFS_DATANODE_USER=root
  2. HADOOP_SECURE_DN_USER=hdfs
  3. HDFS_NAMENODE_USER=root
  4. HDFS_SECONDARYNAMENODE_USER=root

 在start-yarn.sh、stop-yarn.sh开始第一行加上 

  1. YARN_RESOURCEMANAGER_USER=root
  2. HADOOP_SECURE_DN_USER=yarn
  3. YARN_NODEMANAGER_USER=root

注意:如果出现

WARNING: HADOOP_SECURE_DN_USER has been replaced by HDFS_DATANODE_SECURE_USER. Using value of HADOOP_SECURE_DN_USER.

需要把修改start-dfs.sh,stop-dfs.sh文件,如下代码:

HDFS_DATANODE_USER=root

HADOOP_SECURE_DN_USER=hdfs

HDFS_NAMENODE_USER=root

HDFS_SECONDARYNAMENODE_USER=root

改为,如下代码:

HDFS_DATANODE_USER=root

HDFS_DATANODE_SECURE_USER=hdfs

HDFS_NAMENODE_USER=root

HDFS_SECONDARYNAMENODE_USER=root

  1. 配置好后,将 hadoop-1上的 /opt/hadoop/hadoop-3.2.0 文件夹复制到各个节点上

  1. scp -r /opt/hadoop/hadoop-3.2.0 root@hadoop-2:/opt/hadoop/
  2. scp -r /opt/hadoop/hadoop-3.2.0 root@hadoop-3:/opt/hadoop/
  3. scp /etc/profile root@hadoop-2:/etc/ #copy配置文件到各个节点
  4. scp /etc/profile root@hadoop-3:/etc/

四、启动hadoop

到这里,就是检验成果的时候了,激动一下吧!

1.在namenode上执行初始化

因为hadoop01是namenode,hadoop02和hadoop03都是datanode,所以只需要对hadoop01进行初始化操作,也就是对hdfs进行格式化。

  1. [root@hadoop01 hadoop]# cd /opt/hadoop/hadoop-2.9.1/bin
  2. [root@hadoop01 bin]# ./hadoop namenode -format
  3. ...
  4. ...

不报错的话,就是顺利的执行完初始化了;
格式化成功后,可以在看到在/root/hadoop/dfs/name/目录多了一个current目录,而且该目录内有一系列文件:

  1. [root@hadoop01 bin]# cd /root/hadoop/dfs/name/
  2. [root@hadoop01 name]# ls
  3. current in_use.lock
  4. [root@hadoop01 name]# ls current/
  5. edits_0000000000000000001-0000000000000000002 edits_0000000000000000005-0000000000000000006 fsimage_0000000000000000004 fsimage_0000000000000000006 seen_txid
  6. edits_0000000000000000003-0000000000000000004 edits_inprogress_0000000000000000007 fsimage_0000000000000000004.md5 fsimage_0000000000000000006.md5 VERSION
  7. [root@hadoop01 name]#

2.执行启动命令:

  1. [root@hadoop01 name]# cd /opt/hadoop/hadoop-2.9.1/sbin
  2. [root@hadoop01 sbin]# ./start-all.sh

第一次执行上面的启动命令,会需要我们进行交互操作,在问答界面上输入yes回车,我由于已经安装完成,所以就复制了个网上的图。 

五、测试hadoop

hadoop01是我自己的主机,ip是10.25.0.165
所以访问:
http://10.25.0.165:50070/

image.png

http://10.25.0.165:8088/

image.png

那么,你成功过了嘛?!

六、问题

1.hadoop命令无法使用

在昨天使用了成功安装部署了hadoop之后,使用了

hadoop fs -ls /*

命令来查看HDFS文件系统,结果发现报错

  1. [root@hadoop01 hadoop-2.9.1]# hadoop fs -ls /*
  2. bash: hadoop: 未找到命令...

这是由于没有配置环境变量的关系,使用vim命令修改 /etc/profile 文件,添加

  1. export HADOOP_HOME=你的hadoop安装路径
  2. export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/1002451
推荐阅读
相关标签
  

闽ICP备14008679号