当前位置:   article > 正文

安装Hadoop集群(超详细!)_hadoop集群安装

hadoop集群安装

提示:安装前请准备好三台装有jdk的虚拟机 我这里名为hd01、hd02、hd03

hd01最好有hadoop和zookeeper的压缩包

文章目录


前言

前面我写了一篇单机版的Hadoop安装,这里终于要装集群版,装集群版的步骤比较繁琐,需要同学们多加练习,因为我们不可能只装一次,经常出了问题就要重装,所以必须要练熟练。

一、准备环境

先准备好三台虚拟机 都设置了各自的固态ip和hostname 并且下载了相应的工具包(wget、vim等)有需要一键安装脚本的可以先点个关注然后联系作者 然后就可以正式开始我们搭集群了!

先把hadoop解压,然后把它移动到opt下的soft文件夹下 并重命名为hadoop260

1. mv hadoop-2.6.0-cdh5.14.2 soft/hadoop260

2.用xshell设置为一起输入(这样就可以同步输入三台虚拟机的命令并执行)

具体在xshell上方 工具->发送输入到->所有会话 

3.很重要的一步!需要将每一个的hosts设置成这样!!!    vim /etc/hosts

4.然后三个一起设置无密登录:   ssh-keygen -t rsa -P ''           <-- 这是两个单引号(不是双引号)

出现如下三个这样子的矩形即可 

5.然后每台都执行

ssh-copy-id root@hd01

然后都执行ssh-copy-id root@hd02

然后都执行ssh-copy-id root@hd03

途中我报错了 因为比如我的hd02一直找不到我的hd01?!就很奇怪,试了n多办法也没用

就把etc/hosts中的内容调了个顺序 就可以互相通过主机名ping通了 真的amazing吧...希望读者没有

可以互相ssh hd01    ssh hd02这样试试  exit退出

6.每一个都执行:  yum -y install chrony   下载这个让集群时间同步

7.修改配置   vi /etc/chrony.conf

把上面的注释掉 并用这个代替:

server ntp1.aliyun.com

server ntp2.aliyun.com

server ntp3.aliyun.com

然后 systemctl start chronyd

8.安装各种工具包

yum install -y wget

yum install -y psmisc  

二、安装Hadoop

1.(下面是操作hd01)

解压zookeeper并移动到文件夹

tar -zxvf zookeeper-3.4.5-cdh5.14.2.tar.gz

mv zookeeper-3.4.5-cdh5.14.2 soft/zk345

2.进入到目录 复制zoo_sampe.cfg重命名为一个zoo.cfg  

3.编辑zoo.cfg:(看到没,我下面就是都写hd01了 找错找了半天!!!引以为戒)

把dataDir改一下:

dataDir=/opt/soft/zk345/data

然后复制这个到最后一段:

server.1=hd01:2888:3888

server.2=hd02:2888:3888

server.3=hd03:2888:3888

4.然后回到zk345目录下

mkdir data

cd data/

echo "1"> myid

5.回到soft目录下:复制发送给另外两台 然后修改对应的id

scp -r /opt/soft/zk345 root@hd02:/opt/soft/

scp -r /opt/soft/zk345 root@hd03:/opt/soft/

然后两台机器都各自:vim /opt/soft/zk345/data/myid     改成2和3

6.三台机器都进入/etc/profile 在最后加环境变量

export ZOOKEEPER_HOME=/opt/soft/zk345
export PATH=$PATH:$ZOOKEEPER_HOME/bin

7.(然后只操作hd01)解压hadoop 然后改名移动到文件夹

tar -zxf hadoop-2.6.0-cdh5.14.2.tar.gz

mv hadoop-2.6.0-cdh5.14.2 soft/hadoop260

8.创建文件夹:

mkdir -p /opt/soft/hadoop260/tmp

mkdir -p /opt/soft/hadoop260/dfs/journalnode_data

mkdir -p /opt/soft/hadoop260/dfs/edits

mkdir -p /opt/soft/hadoop260/dfs/datanode_data

mkdir -p /opt/soft/hadoop260/dfs/namenode_data

9.进入hadoop260配置env.sh:

vim etc/hadoop/hadoop-env.sh

 10.还是etc的hadoop目录下 配置core-site.xml

  1. <configuration>
  2. <property>
  3.   <name>fs.defaultFS</name>
  4.   <value>hdfs://hacluster</value>
  5. </property>
  6. <property>
  7.   <name>hadoop.tmp.dir</name>
  8.   <value>file:///opt/soft/hadoop260/tmp</value>
  9. </property>
  10. <property>
  11.   <name>io.file.buffer.size</name>
  12.   <value>4096</value>
  13. </property>
  14. <property>
  15.   <name>ha.zookeeper.quorum</name>
  16.   <value>hd01:2181,hd02:2181,hd03:2181</value>
  17. </property>
  18. <property>
  19.   <name>hadoop.proxyuser.root.hosts</name>
  20.   <value>*</value>
  21. </property>
  22. <property>
  23.   <name>hadoop.proxyuser.root.groups</name>
  24.   <value>*</value>
  25. </property>
  26. </configuration>

11.配置hdfs-site.xml

  1. <configuration>
  2. <property>
  3.        <name>dfs.block.size</name>
  4.        <value>134217728</value>
  5.    </property>
  6.    <property>
  7.        <name>dfs.replication</name>
  8.        <value>3</value>
  9.    </property>
  10.    <property>
  11.        <name>dfs.name.dir</name>
  12.        <value>file:///opt/soft/hadoop260/dfs/namenode_data</value>
  13.    </property>
  14.    <property>
  15.        <name>dfs.data.dir</name>
  16.        <value>file:///opt/soft/hadoop260/dfs/datanode_data</value>
  17.    </property>
  18.    <property>
  19.        <name>dfs.webhdfs.enabled</name>
  20.        <value>true</value>
  21.    </property>
  22.    <property>
  23.        <name>dfs.datanode.max.transfer.threads</name>
  24.        <value>4096</value>
  25.    </property>
  26.    <property>
  27.        <name>dfs.nameservices</name>
  28.        <value>hacluster</value>
  29.    </property>
  30.    <property>
  31.        <name>dfs.ha.namenodes.hacluster</name>
  32.        <value>nn1,nn2</value>
  33.    </property>
  34.    <property>
  35.        <name>dfs.namenode.rpc-address.hacluster.nn1</name>
  36.        <value>hd01:9000</value>
  37.    </property>
  38.    <property>
  39.        <name>dfs.namenode.servicepc-address.hacluster.nn1</name>
  40.        <value>hd01:53310</value>
  41.    </property>
  42.    <property>
  43.        <name>dfs.namenode.http-address.hacluster.nn1</name>
  44.        <value>hd01:50070</value>
  45.    </property>
  46.    <!--nn2的rpc、servicepc和http通讯地址 -->
  47.    <property>
  48.        <name>dfs.namenode.rpc-address.hacluster.nn2</name>
  49.        <value>hd02:9000</value>
  50.    </property>
  51.    <property>
  52.        <name>dfs.namenode.servicepc-address.hacluster.nn2</name>
  53.        <value>hd02:53310</value>
  54.    </property>
  55.    <property>
  56.        <name>dfs.namenode.http-address.hacluster.nn2</name>
  57.        <value>hd02:50070</value>
  58.    </property>
  59.    <property>
  60.        <name>dfs.namenode.shared.edits.dir</name>
  61. <value>qjournal://hd01:8485;hd02:8485;hd03:8485/hacluster</value>
  62.    </property>
  63.    <property>
  64.        <name>dfs.journalnode.edits.dir</name>
  65.        <value>/opt/soft/hadoop260/dfs/journalnode_data</value>
  66.    </property>
  67.    <property>
  68.        <name>dfs.namenode.edits.dir</name>
  69.        <value>/opt/soft/hadoop260/dfs/edits</value>
  70.    </property>
  71.    <property>
  72.        <name>dfs.ha.automatic-failover.enabled</name>
  73.        <value>true</value>
  74.    </property>
  75.    <property>
  76.        <name>dfs.client.failover.proxy.provider.hacluster</name>
  77.   <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
  78.    </property>
  79.    <property>
  80.        <name>dfs.ha.fencing.methods</name>
  81.        <value>sshfence</value>
  82.    </property>
  83.    <property>
  84.        <name>dfs.ha.fencing.ssh.private-key-files</name>
  85.        <value>/root/.ssh/id_rsa</value>
  86.    </property>
  87.    <property>
  88.        <name>dfs.premissions</name>
  89.        <value>false</value>
  90.    </property>
  91. </configuration>

12.编辑 mapred-site.xml.template 

  1. <configuration>
  2. <property>
  3.   <name>mapreduce.framework.name</name>
  4.        <value>yarn</value>
  5.  </property>
  6.  <property>
  7.   <name>mapreduce.jobhistory.address</name>
  8.        <value>hd01:10020</value>
  9.  </property>
  10.  <property>
  11.   <name>mapreduce.jobhistory.webapp.address</name>
  12.        <value>hd01:19888</value>
  13.  </property>
  14.  <property>
  15.   <name>mapreduce.job.ubertask.enable</name>
  16.        <value>true</value>
  17.  </property>
  18. </configuration>

13.配置yarn-site.xml

  1. <configuration>
  2. <property>
  3.        <name>yarn.resourcemanager.ha.enabled</name>
  4.        <value>true</value>
  5.    </property>
  6.    <property>
  7.        <name>yarn.resourcemanager.cluster-id</name>
  8.        <value>hayarn</value>
  9.    </property>
  10.    <property>
  11.        <name>yarn.resourcemanager.ha.rm-ids</name>
  12.        <value>rm1,rm2</value>
  13.    </property>
  14.    <property>
  15.        <name>yarn.resourcemanager.hostname.rm1</name>
  16.        <value>hd02</value>
  17.    </property>
  18.    <property>
  19.        <name>yarn.resourcemanager.hostname.rm2</name>
  20.        <value>hd03</value>
  21.    </property>
  22.    <property>
  23.        <name>yarn.resourcemanager.zk-address</name>
  24.        <value>hd01:2181,hd02:2181,hd03:2181</value>
  25.    </property>
  26.    <property>
  27.        <name>yarn.resourcemanager.recovery.enabled</name>
  28.        <value>true</value>
  29.    </property>
  30.    <property>
  31.        <name>yarn.resourcemanager.store.class</name>
  32.  <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
  33.    </property>
  34.    <property>
  35.        <name>yarn.resourcemanager.hostname</name>
  36.        <value>hd03</value>
  37.    </property>
  38.    <property>
  39.        <name>yarn.nodemanager.aux-services</name>
  40.        <value>mapreduce_shuffle</value>
  41.    </property>
  42.    <property>
  43.        <name>yarn.log-aggregation-enable</name>
  44.        <value>true</value>
  45.    </property>
  46.    <property>
  47.        <name>yarn.log-aggregation.retain-seconds</name>
  48.        <value>604800</value>
  49.    </property>
  50. </configuration>

14.hadoop下继续   vim etc/hadoop/slaves

把localhost删掉 改成

hd01

hd02

hd03

15.然后开始复制hadoop到另外两台机器:

scp -r /opt/soft/hadoop260 root@hd02:/opt/soft/

scp -r /opt/soft/hadoop260 root@hd03:/opt/soft/

16.然后把

#hadoop
export HADOOP_HOME=/opt/soft/hadoop260
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME

粘贴到每台机器的etc的profile内 别忘了source /etc/profile 哦!!!

3.启动集群

1.每台机器上启动zookeeper

zkServer.sh start

2.每台机器都启动:

hadoop-daemon.sh start journalnode

3.只在hd01上格式化:

hdfs namenode -format

4.将hd01上的Namenode的元数据复制到hd02相同位置

下面是一行!

scp -r /opt/soft/hadoop260/dfs/namenode_data/current/ root@hd02:/opt/soft/hadoop260/dfs/namenode_data

5.hd01或者hd02上:

hdfs zkfc -formatZK

6.hd01上:   start-dfs.sh

7.hd03上:   start-yarn.sh

8.hd01上:   mr-jobhistory-daemon.sh start historyserver

9.hd02上:   yarn-daemon.sh start resourcemanager

  没问题就大功告成啦!!!

总结

我本人第一次装的时候也装了很久,找小错误找了一天,算是比较深刻的印象。以后还是有很多机会重装的,所以就当巩固了!

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号