当前位置:   article > 正文

Hadoop高可用集群搭建

hadoop高可用集群搭建

一、集群节点分布。

三个服务器组成一个Zookeeper集群。node-01和node-02作为集群的NameNode,需要运行ZKFC来监控NameNode的健康状态。

二、hadoop高可用集群

(1)先搭建普通的hadoop集群

 (2)修改core-site.xml文件。

            该文件是Hadoop的核心配置文件,配置HDFS地址、端口号,以及临时文件 目录。打开该配置文件,添加如下配置内容。

zookeeper地址就是你的三台主机名

  1. cd /export/servers/hadoop-2.7.4/etc/hadoop/
  2. vi core-site.xml
  3. <configuration>
  4. <!-- 指定hdfs的nameservice为ns1 -->
  5. <property>
  6. <name>fs.defaultFS</name>
  7. <value>hdfs://ns1</value>
  8. </property>
  9. <!-- 指定hadoop临时目录 -->
  10. <property>
  11. <name>hadoop.tmp.dir</name>
  12. <value>/export/servers/hadoop-2.7.4/tmp</value>
  13. </property>
  14. <!-- 指定zookeeper地址 -->
  15. <property>
  16. <name>ha.zookeeper.quorum</name>
  17. <value>201914311401:2181,201914311402:2181,201914311403:2181</value>
  18. </property>
  19. </configuration>

(3)修改hdfs-site.xml文件

         配置两台NameNode端口地址和通信方式,指定NameNode的元数据上的存放位置,开启NameNode失败自动切换以及配置sshfence(通过ssh远程登录到前一个Active NameNode并将其结束进程:

  1. vi hdfs-site.xml
  2. <configuration>
  3. <!-- 设置副本个数 -->
  4. <property>
  5. <name>dfs.replication</name>
  6. <value>2</value>
  7. </property>
  8. <!-- 设置namenode.name目录 -->
  9. <property>
  10. <name>dfs.namenode.name.dir</name>
  11. <value>file:/export/data/hadoop/name</value>
  12. </property>
  13. <!-- 设置namenode.data目录 -->
  14. <property>
  15. <name>dfs.datanode.data.dir</name>
  16. <value>file:/export/data/hadoop/data</value>
  17. </property>
  18. <!-- 开启webHDFS -->
  19. <property>
  20. <name>dfs.webhdfs.enabled</name>
  21. <value>true</value>
  22. <!-- 在NN和DN上开启WebHDFS (REST API)功能,不是必须 -->
  23. </property>
  24. <!--指定hdfs的nameservice为ns1,需要和core-site.xml中的保持一致 -->
  25. <property>
  26. <name>dfs.nameservices</name>
  27. <value>ns1</value>
  28. </property>
  29. <!-- ns1下面有两个NameNode,分别是nn1,nn2 -->
  30. <property>
  31. <name>dfs.ha.namenodes.ns1</name>
  32. <value>nn1,nn2</value>
  33. </property>
  34. <!-- nn1的RPC通信地址 -->
  35. <property>
  36. <name>dfs.namenode.rpc-address.ns1.nn1</name>
  37. <value>201914311401:9000</value>
  38. </property>
  39. <!-- nn1的http通信地址 -->
  40. <property>
  41. <name>dfs.namenode.http-address.ns1.nn1</name>
  42. <value>201914311401:50070</value>
  43. </property>
  44. <!-- nn2的RPC通信地址 -->
  45. <property>
  46. <name>dfs.namenode.rpc-address.ns1.nn2</name>
  47. <value>201914311402:9000</value>
  48. </property>
  49. <!-- nn2的http通信地址 -->
  50. <property>
  51. <name>dfs.namenode.http-address.ns1.nn2</name>
  52. <value>201914311402:50070</value>
  53. </property>
  54. <!-- 指定NameNode的元数据在JournalNode上的存放位置 -->
  55. <property>
  56. <name>dfs.namenode.shared.edits.dir</name>
  57. <value>qjournal://201914311401:8485;201914311402:8485;201914311403:8485/ns1 </value>
  58. </property>
  59. <!-- 指定JournalNode在本地磁盘存放数据的位置 -->
  60. <property>
  61. <name>dfs.journalnode.edits.dir</name>
  62. <value>/export/data/hadoop/journaldata</value>
  63. </property>
  64. <!-- 开启NameNode失败自动切换 -->
  65. <property>
  66. <name>dfs.ha.automatic-failover.enabled</name>
  67. <value>true</value>
  68. </property>
  69. <!-- 配置失败自动切换实现方式 -->
  70. <property>
  71. <name>dfs.client.failover.proxy.provider.ns1</name>
  72. <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider </value>
  73. </property>
  74. <!-- 配置隔离机制方法,多个机制用换行分割,即每个机制暂用一行-->
  75. <property>
  76. <name>dfs.ha.fencing.methods</name>
  77. <value>
  78. sshfence
  79. shell(/bin/true)
  80. </value>
  81. </property>
  82. <!-- 使用sshfence隔离机制时需要ssh免登陆 -->
  83. <property>
  84. <name>dfs.ha.fencing.ssh.private-key-files</name>
  85. <value>/root/.ssh/id_rsa</value>
  86. </property>
  87. <!-- 配置sshfence隔离机制超时时间 -->
  88. <property>
  89. <name>dfs.ha.fencing.ssh.connect-timeout</name>
  90. <value>30000</value>
  91. </property>
  92. </configuration>

(4)修改mapred-site.xml文件。

     该文件是MapReduce的核心配置文件,指定MapReduce运行时框架。在etc/ hadoop/目录中默认没有该文件,将“mapred-site.xml.template ”文件复制并重命名为“mapred-site.xml”。打开mapred-site.xml文件进 行修改
 

  1. cp mapred-site.xml.template mapred-site.xml
  2. vi mapred-site.xml
  1. <configuration>
  2. <!-- 指定mapreduce框架为yarn方式 -->
  3. <property>
  4. <name>mapreduce.framework.name</name>
  5. <value>yarn</value>
  6. </property>
  7. </configuration>

(5)修改yarn-site.xml文件。

      本文件是YARN框架的核心配置文件,开启ResourceManager高可用,指定ResourceManager的端口名称地址,并配置Zookeeper集群地址。打开该配置 文件,添加如下配置内容。

  1. <configuration>
  2. <property>
  3. <name>yarn.nodemanager.resource.memory-mb</name>
  4. <value>2048</value>
  5. </property>
  6. <property>
  7. <name>yarn.scheduler.maximum-allocation-mb</name>
  8. <value>2048</value>
  9. </property>
  10. <property>
  11. <name>yarn.nodemanager.resource.cpu-vcores</name>
  12. <value>1</value>
  13. </property>
  14. <!-- 开启RM高可用 -->
  15. <property>
  16. <name>yarn.resourcemanager.ha.enabled</name>
  17. <value>true</value>
  18. </property>
  19. <!-- 指定RM的cluster id -->
  20. <property>
  21. <name>yarn.resourcemanager.cluster-id</name>
  22. <value>yrc</value>
  23. </property>
  24. <!-- 指定RM的名字 -->
  25. <property>
  26. <name>yarn.resourcemanager.ha.rm-ids</name>
  27. <value>rm1,rm2</value>
  28. </property>
  29. <!-- 分别指定RM的地址 -->
  30. <property>
  31. <name>yarn.resourcemanager.hostname.rm1</name>
  32. <value>201914311401</value>
  33. </property>
  34. <property>
  35. <name>yarn.resourcemanager.hostname.rm2</name>
  36. <value>201914311402</value>
  37. </property>
  38. <!-- 指定zk集群地址 -->
  39. <property>
  40. <name>yarn.resourcemanager.zk-address</name>
  41. <value>201914311401:2181,201914311402:2181,201914311403:2181</value>
  42. </property>
  43. <property>
  44. <name>yarn.nodemanager.aux-services</name>
  45. <value>mapreduce_shuffle</value>
  46. </property>
  47. </configuration>

(6)修改slaves文件。

      该文件用于记录Hadoop集群所有从节点(HDFS的DatalNode和YARN的 NodeManager所在主机)的主机名,用来配合一键启动脚本启动集群从节点(关联节点需要提前配置了SSH免密登录)。打开该配置文件,先删除里面的内容, 然后输入你自己的三台主机名。

(7)修改hadoop-env.sh文件

       进入到主节点hadoop01解压包下的etc/hadoop/目录,使用“vi hadoop-env.sh”指令打 开其中的hadoop-env.sh文件,找到JAVA_HOME参数位置进行修改(注意JDK路径,你自己的路径是什么就改成什么)。

 三、分发文件

  1. scp -r /export/servers/hadoop-2.7.4/ 201914311402:/export/servers/
  2. scp -r /export/servers/hadoop-2.7.4/ 201914311403:/export/servers/

四、启动hadoop高可用集群

(1)启动集群各个节点的Zookeeper服务

  1. cd /export/servers/zookeeper-3.4.10/bin
  2. zkServer.sh start

(2)启动集群各个节点监控NameNode的管理日志的JournalNode

hadoop-daemon.sh start journalnode

(3)在node-01节点格式化NameNode

hadoop namenode –format

(4)将格式化后的目录分发给node-02中

scp -r /export/data/hadoop 201914311402:/export/data/

(5)在node-01节点上格式化ZKFC

hdfs zkfc -formatZK

(6)node-01节点上启动HDFS和Yarn

  1. start-dfs.sh
  2. start-yarn.sh

到此hadoop高可用集群搭建就完成了。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/421847
推荐阅读
相关标签
  

闽ICP备14008679号