当前位置:   article > 正文

Hadoop高可用(HA)集群搭建_hadoop ha模式集群构建

hadoop ha模式集群构建

高可用(high availability,HA)指的是若当前工作中的机器宕机了,系统会自动处理异常,并将工作无缝地转移到其他备用机器上,以保证服务的高可靠性与可用性。

而Zookeeper是一个分布式协调服务,Zookeeper即可用来保证Hadoop集群的高可用性。通过zookeeper集群与Hadoop2.X中的两个NameNode节点之间的通信,保证集群中总有一个可用的NameNode(即active NameNode),从而实现双NameNode节点构成的NameNode HA,达到HDFS高可用性。同Zookeeper也可用来保证ResourceManager HA,即实现YARN高可用性。

一、系统文件配置

  1. 集群部署规划

  • NameNode和SecondaryNameNode不要安装在同一台服务器

  • ResourceManager也很消耗内存,不要和NameNode、SecondaryNameNode放在同一台机器上。

这里装了四台机器,ant151,ant152,ant153,ant154。这里的四台机器均已经安装了zookeeper。

zookeeper安装步骤见→zookeeper集群搭建

ant151

ant152

ant153

ant154

NameNode

NameNode

DataNode

DataNode

DataNode

DataNode

NodeManager

NodeManager

NodeManager

NodeManager

ResourceManager

ResourceManager

JournalNode

JournalNode

JournalNode

DFSZKFController

DFSZKFController

zk0

zk1

zk2

  1. 配置文件说明

Hadoop配置文件分为默认配置文件自定义配置文件,只有用户想修改某一默认配置值时,才需要修改自定义配置文件。

core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml四个配置文件放在$HADOOP_HOME/etc/hadoop路径下。

3.配置集群

core-site.xml

  1.     <property>
  2. <name>fs.defaultFS</name>
  3. <value>hdfs://gky</value>
  4. <description>逻辑名称,必须与hdfs-site.xml中的dfs.nameservices值保持一致</description>
  5. </property>
  6. <property>
  7. <name>hadoop.tmp.dir</name>
  8. <value>/opt/soft/hadoop313/tmpdata</value>
  9. <description>namenode上本地的hadoop临时文件夹</description>
  10. </property>
  11. <property>
  12. <name>hadoop.http.staticuser.user</name>
  13. <value>root</value>
  14. <description>默认用户</description>
  15. </property>
  16. <property>
  17. <name>hadoop.proxyuser.root.hosts</name>
  18. <value>*</value>
  19. <description></description>
  20. </property>
  21. <property>
  22. <name>hadoop.proxyuser.root.groups</name>
  23. <value>*</value>
  24. <description></description>
  25. </property>
  26. <property>
  27. <name>io.file.buffer.size</name>
  28. <value>131072</value>
  29. <description>读写文件的buffer大小为:128K</description>
  30. </property>
  31. <property>
  32. <name>ha.zookeeper.quorum</name>
  33. <value>ant151:2181,ant152:2181,ant153:2181</value>
  34. <description></description>
  35. </property>
  36. <property>
  37. <name>ha.zookeeper.session-timeout.ms</name>
  38. <value>10000</value>
  39. <description>hadoop链接zookeeper的超时时长设置为10s</description>
  40. </property>

hdfs-site.xml

  1.     <property>
  2. <name>dfs.replication</name>
  3. <value>3</value>
  4. <description>Hadoop中每一个block的备份数</description>
  5. </property>
  6. <property>
  7. <name>dfs.namenode.name.dir</name>
  8. <value>/opt/soft/hadoop313/data/dfs/name</value>
  9. <description>namenode上存储hdfs名字空间元数据目录</description>
  10. </property>
  11. <property>
  12. <name>dfs.datanode.data.dir</name>
  13. <value>/opt/soft/hadoop313/data/dfs/data</value>
  14. <description>datanode上数据块的物理存储位置</description>
  15. </property>
  16. <property>
  17. <name>dfs.namenode.secondary.http-address</name>
  18. <value>ant151:9869</value>
  19. <description></description>
  20. </property>
  21. <property>
  22. <name>dfs.nameservices</name>
  23. <value>gky</value>
  24. <description>指定hdfs的nameservice,需要和core-site.xml中保持一致</description>
  25. </property>
  26. <property>
  27. <name>dfs.ha.namenodes.gky</name>
  28. <value>nn1,nn2</value>
  29. <description>gky为集群的逻辑名称,映射两个namenode逻辑名</description>
  30. </property>
  31. <property>
  32. <name>dfs.namenode.rpc-address.gky.nn1</name>
  33. <value>ant151:9000</value>
  34. <description>namenode1的RPC通信地址</description>
  35. </property>
  36. <property>
  37. <name>dfs.namenode.http-address.gky.nn1</name>
  38. <value>ant151:9870</value>
  39. <description>namenode1的http通信地址</description>
  40. </property>
  41. <property>
  42. <name>dfs.namenode.rpc-address.gky.nn2</name>
  43. <value>ant152:9000</value>
  44. <description>namenode2的RPC通信地址</description>
  45. </property>
  46. <property>
  47. <name>dfs.namenode.http-address.gky.nn2</name>
  48. <value>ant152:9870</value>
  49. <description>namenode2的http通信地址</description>
  50. </property>
  51. <property>
  52. <name>dfs.namenode.shared.edits.dir</name>
  53. <value>qjournal://ant151:8485;ant152:8485;ant153:8485/gky</value>
  54. <description>指定NameNode的edits元数据的共享存储位置(JournalNode列表)</description>
  55. </property>
  56. <property>
  57. <name>dfs.journalnode.edits.dir</name>
  58. <value>/opt/soft/hadoop313/data/journaldata</value>
  59. <description>指定JournalNode在本地磁盘存放数据的位置</description>
  60. </property>
  61. <!-- 容错 -->
  62. <property>
  63. <name>dfs.ha.automatic-failover.enabled</name>
  64. <value>true</value>
  65. <description>开启NameNode故障自动切换</description>
  66. </property>
  67. <property>
  68. <name>dfs.client.failover.proxy.provider.gky</name>
  69. <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
  70. <description>失败后自动切换的实现方式</description>
  71. </property>
  72. <property>
  73. <name>dfs.ha.fencing.methods</name>
  74. <value>sshfence</value>
  75. <description>防止脑裂的处理</description>
  76. </property>
  77. <property>
  78. <name>dfs.ha.fencing.ssh.private-key-files</name>
  79. <value>/root/.ssh/id_rsa</value>
  80. <description>使用sshfence隔离机制时,需要ssh免密登陆</description>
  81. </property>
  82. <property>
  83. <name>dfs.permissions.enabled</name>
  84. <value>false</value>
  85. <description>关闭HDFS操作权限验证</description>
  86. </property>
  87. <property>
  88. <name>dfs.image.transfer.bandwidthPerSec</name>
  89. <value>1048576</value>
  90. <description></description>
  91. </property>
  92. <property>
  93. <name>dfs.block.scanner.volume.bytes.per.second</name>
  94. <value>1048576</value>
  95. <description></description>
  96. </property>

mapred-site.xml

  1. <property>
  2. <name>mapreduce.framework.name</name>
  3. <value>yarn</value>
  4. <description>job执行框架: local, classic or yarn</description>
  5. <final>true</final>
  6. </property>
  7. <property>
  8. <name>mapreduce.application.classpath</name>
  9. <value>/opt/soft/hadoop313/etc/hadoop:/opt/soft/hadoop313/share/hadoop/common/lib/*:/opt/soft/hadoop313/share/hadoop/common/*:/opt/soft/hadoop313/share/hadoop/hdfs/*:/opt/soft/hadoop313/share/hadoop/hdfs/lib/*:/opt/soft/hadoop313/share/hadoop/mapreduce/*:/opt/soft/hadoop313/share/hadoop/mapreduce/lib/*:/opt/soft/hadoop313/share/hadoop/yarn/*:/opt/soft/hadoop313/share/hadoop/yarn/lib/*</value>
  10. </property>
  11. <property>
  12. <name>mapreduce.jobhistory.address</name>
  13. <value>ant151:10020</value>
  14. </property>
  15. <property>
  16. <name>mapreduce.jobhistory.webapp.address</name>
  17. <value>ant151:19888</value>
  18. </property>
  19. <property>
  20. <name>mapreduce.map.memory.mb</name>
  21. <value>1024</value>
  22. <description>map阶段的task工作内存</description>
  23. </property>
  24. <property>
  25. <name>mapreduce.reduce.memory.mb</name>
  26. <value>2048</value>
  27. <description>reduce阶段的task工作内存</description>
  28. </property>

yarn-site.xml

  1. <property>
  2. <name>yarn.resourcemanager.ha.enabled</name>
  3. <value>true</value>
  4. <description>开启resourcemanager高可用</description>
  5. </property>
  6. <property>
  7. <name>yarn.resourcemanager.cluster-id</name>
  8. <value>yrcabc</value>
  9. <description>指定yarn集群中的id</description>
  10. </property>
  11. <property>
  12. <name>yarn.resourcemanager.ha.rm-ids</name>
  13. <value>rm1,rm2</value>
  14. <description>指定resourcemanager的名字</description>
  15. </property>
  16. <property>
  17. <name>yarn.resourcemanager.hostname.rm1</name>
  18. <value>ant153</value>
  19. <description>设置rm1的名字</description>
  20. </property>
  21. <property>
  22. <name>yarn.resourcemanager.hostname.rm2</name>
  23. <value>ant154</value>
  24. <description>设置rm2的名字</description>
  25. </property>
  26. <property>
  27. <name>yarn.resourcemanager.webapp.address.rm1</name>
  28. <value>ant153:8088</value>
  29. <description></description>
  30. </property>
  31. <property>
  32. <name>yarn.resourcemanager.webapp.address.rm2</name>
  33. <value>ant154:8088</value>
  34. <description></description>
  35. </property>
  36. <property>
  37. <name>yarn.resourcemanager.zk-address</name>
  38. <value>ant151:2181,ant152:2181,ant153:2181</value>
  39. <description>指定zk集群地址</description>
  40. </property>
  41. <property>
  42. <name>yarn.nodemanager.aux-services</name>
  43. <value>mapreduce_shuffle</value>
  44. <description>运行mapreduce程序必须配置的附属服务</description>
  45. </property>
  46. <property>
  47. <name>yarn.nodemanager.local-dirs</name>
  48. <value>/opt/soft/hadoop313/tmpdata/yarn/local</value>
  49. <description>nodemanager本地存储目录</description>
  50. </property>
  51. <property>
  52. <name>yarn.nodemanager.log-dirs</name>
  53. <value>/opt/soft/hadoop313/tmpdata/yarn/log</value>
  54. <description>nodemanager本地日志目录</description>
  55. </property>
  56. <property>
  57. <name>yarn.nodemanager.resource.memory-mb</name>
  58. <value>2048</value>
  59. <description>resource进程的工作内存</description>
  60. </property>
  61. <property>
  62. <name>yarn.nodemanager.resource.cpu-vcores</name>
  63. <value>2</value>
  64. <description>resource工作中所能使用机器的内核数</description>
  65. </property>
  66. <property>
  67. <name>yarn.scheduler.minimum-allocation-mb</name>
  68. <value>256</value>
  69. <description></description>
  70. </property>
  71. <property>
  72. <name>yarn.log-aggregation-enable</name>
  73. <value>true</value>
  74. <description>开启日志聚集功能</description>
  75. </property>
  76. <property>
  77. <name>yarn.log-aggregation.retain-seconds</name>
  78. <value>86400</value>
  79. <description>日志保留多少秒</description>
  80. </property>
  81. <property>
  82. <name>yarn.nodemanager.vmem-check-enabled</name>
  83. <value>false</value>
  84. <description></description>
  85. </property>
  86. <property>
  87. <name>yarn.application.classpath</name>
  88. <value>/opt/soft/hadoop313/etc/hadoop:/opt/soft/hadoop313/share/hadoop/common/lib/*:/opt/soft/hadoop313/share/hadoop/common/*:/opt/soft/hadoop313/share/hadoop/hdfs/*:/opt/soft/hadoop313/share/hadoop/hdfs/lib/*:/opt/soft/hadoop313/share/hadoop/mapreduce/*:/opt/soft/hadoop313/share/hadoop/mapreduce/lib/*:/opt/soft/hadoop313/share/hadoop/yarn/*:/opt/soft/hadoop313/share/hadoop/yarn/lib/*</value>
  89. <description></description>
  90. </property>
  91. <property>
  92. <name>yarn.nodemanager.env-whitelist</name>
  93. <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
  94. <description></description>
  95. </property>

hadoop-env.sh

  1. export JAVA_HOME=/opt/soft/jdk180
  2. export HDFS_NAMENODE_USER=root
  3. export HDFS_DATANODE_USER=root
  4. export HDFS_SECONDARYNAMENODE_USER=root
  5. export HDFS_JOURNALNODE_USER=root
  6. export HDFS_ZKFC_USER=root
  7. export YARN_RESOURCEMANAGER_USER=root
  8. export YARN_NODEMANAGER_USER=root

workers

  1. ant151
  2. ant152
  3. ant153
  4. ant154

profile文件

  • vim /etc/profile

  • 启动hadoop集群,需要有java环境,这里的JAVA_HOME同样也要配置

  1. # HADOOP_HOME
  2. export HADOOP_HOME=/opt/soft/hadoop313
  3. export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/lib
  4. # JAVA_HOME
  5. export JAVA_HOME=/opt/soft/jdk180
  6. export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
  7. export PATH=$PATH:$JAVA_HOME/bin

二、SSH免密登录

  1. 在主机A上生成rsa密钥对

所有提示均按回车默认

[root@hadoop02 .ssh]# ssh-keygen -t rsa -P ''

在用户的家目录下回自动生成一个隐藏的文件夹“.ssh”,里面会有两个文件,分别是id_rsa和id_rsa.pub

  • id_rsa是本机的私钥,在使用ssh协议向其它主机传输数据前,主机会使用该私钥对数据进行加密;

  • id_rsa.pub是本机的公钥,因为ssh协议采用非对称加密法(公钥可以用来解密使用私钥进行加密的数据,同样,私钥也可以用来解密公钥进行加密的数据),所以主机一般将该公钥放到其它需要远程登录到的主机的ssh服务器中

  1. 将本地的ssh公钥上传到目标服务器

  1. # 将公钥追加到authorized_keys文件中(免密登录自己)
  2. [root@hadoop02 .ssh]# cat /root/.ssh/id_rsa.pub >> ./authorized_keys
  3. # 上传公钥到ant152、ant153中
  4. [root@hadoop02 .ssh]# ssh-copy-id -i ./id_rsa.pub -p22 root@ant152
  5. [root@hadoop02 .ssh]# ssh-copy-id -i ./id_rsa.pub -p22 root@ant153

  1. 重启ssh服务

  1. [root@hadoop02 .ssh]# systemctl restart sshd
  2. # 免密登录
  3. [root@hadoop02 .ssh]# ssh ant153

三、集群首次启动

  1. 启动zk集群

可以直接运行脚本文件

代码:

[root@ant151 shell]# ./zkop.sh start 

  1. 启动ant151,ant152,ant153的journalnode服务:

[root@ant151 shell]# hdfs --daemon start journalnode

  1. 在ant151格式化 namenode:

[root@ant151 shell]# hdfs namenode -format

  1. 在ant151启动namenode服务

[root@ant151 shell]# hdfs --daemon start namenode

  1. 在ant152机器上同步namenode信息

[root@ant151 shell]# hdfs namenode -bootstrapStandby

[root@ant152 soft]# hdfs --daemon start namenode

查看namenode节点状态:hdfs haadmin -getServiceState nn1|nn2

[root@ant152 soft]# hdfs haadmin -getServiceState nn1

  1. 关闭所有dfs有关的服务

[root@ant151 soft]# stop-dfs.sh

  1. 格式化zk

[root@ant151 soft]# hdfs zkfc -formatZK

  1. 启动dfs

[root@ant151 soft]# start-dfs.sh

  1. 启动yarn

[root@ant151 soft]# start-yarn.sh

  1. 查看resourcemanager节点状态

[root@ant151 soft]# yarn rmadmin -getServiceState rm1

rm1状态:standby

rm2状态:active

当前进程状态:

kill掉active进程

尝试访问,无法链接

恢复ant152的namenode进程

四、集群启动/停止方式

  1. 各个模块分开启动/停止

整体启动/停止HDFS

start-dfs.sh/stop-dfs.sh

整体启动/停止YARN

start-yarn.sh/stop-yarn.sh

2.整体启动/停止yarn

分别启动/停止HDFS组件

hdfs --daemon start/stop namenode/datanode/secondarynamenode

启动/停止YARN

yarn --daemon start/stop resourcemanager/nodemanager
  1. Hadoop集群启停脚本:myhadoop.sh

  • 进入~/bin目录创建脚本:

  • vim hadoopstart.sh

  1. #!/bin/bash
  2. # 判断参数个数
  3. if [ $# -lt 1 ]
  4. then
  5. echo "Not Enough Arguement!"
  6. exit;
  7. fi
  8. case $1 in
  9. "start")
  10. echo " =================== 启动 hadoop集群 ==================="
  11. echo " --------------- 启动 hdfs ---------------"
  12. ssh hadoop102 "/opt/module/hadoop-3.1.4/sbin/start-dfs.sh"
  13. echo " --------------- 启动 yarn ---------------"
  14. ssh hadoop103 "/opt/module/hadoop-3.1.4/sbin/start-yarn.sh"
  15. echo " --------------- 启动 historyserver ---------------"
  16. ssh hadoop102 "/opt/module/hadoop-3.1.4/bin/mapred --daemon start historyserver"
  17. ;;
  18. "stop")
  19. echo " =================== 关闭 hadoop集群 ==================="
  20. echo " --------------- 关闭 historyserver ---------------"
  21. ssh hadoop102 "/opt/module/hadoop-3.1.4/bin/mapred --daemon stop historyserver"
  22. echo " --------------- 关闭 yarn ---------------"
  23. ssh hadoop103 "/opt/module/hadoop-3.1.4/sbin/stop-yarn.sh"
  24. echo " --------------- 关闭 hdfs ---------------"
  25. ssh hadoop102 "/opt/module/hadoop-3.1.4/sbin/stop-dfs.sh"
  26. ;;
  27. *)
  28. echo "Input Args Error..."
  29. ;;
  30. esac
  1. 查看所有服务器进程运行情况脚本

  • 进入~/bin目录下创建脚本:

  • vim jpsall.sh

  1. #! /bin/bash
  2. for host in hadoop102 hadoop103 hadoop104 hadoop100
  3. do
  4. echo --------- $host ----------
  5. ssh $host jps
  6. done

五、常用端口号及配置文件

  1. 常用端口号

hadoop3.x

  • HDFS NameNode 内部通常端口:8020/9000/9820

  • HDFS NameNode 用户查询端口:9870

  • Yarn查看任务运行情况:8088

  • 历史服务器:19888

hadoop2.x

  • HDFS NameNode 内部通常端口:8020/9000

  • HDFS NameNode 用户查询端口:50070

  • Yarn查看任务运行情况:8088

  • 历史服务器:19888

  1. 常用配置文件

3.x core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml workers

2.x core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml slaves

六、集群时间同步

同步时间的下面操作三台机都需要

  1. 安装ntpdate

[root@ant151 soft]# yum install -y ntpdate
  1. 定时更新时间

  1. [root@ant151 soft]# crontab -e
  2. 每五分钟更新一次时间

ant151设置时间同步

其他两台节点与ant151同步更新时间

  1. 启动定时任务

[root@ant151 soft]# service crond start
本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/黑客灵魂/article/detail/855632
推荐阅读
相关标签
  

闽ICP备14008679号