当前位置:   article > 正文

ubuntu系统一键搭建hadoop+hdfs+spark+yarn_在ubuntu上搭建spark的yarn集群

在ubuntu上搭建spark的yarn集群

先上自己写的两个脚本吧

https://github.com/yfyvan/bigdata_deploy

 

在介绍脚本用法之前,咱们先看看一些配置

 

一:hadoop

(1)etc/hadoop/core-site.xml

  1. <configuration>
  2. <property>
  3. <name>fs.defaultFS</name>
  4. <value>hdfs://xxxxxx:9000</value>
  5. </property>
  6. <property>
  7. <name>hadoop.tmp.dir</name>
  8. <value>/data04/luozongyuan/bigdata/hadoop/hadoop_tmp_dir</value>
  9. </property>
  10. </configuration>

一般我们只要配置这俩就够了,

fs.defaultFS:hdfs存放文件数据的地址,xxx部分一般是你的内网ip,9000最好别动,后期使用python或者spark来调用hdfs的文件就是用这个地址加端口

hadoop.tmp.dir:hadoop做数据交互的临时文件存放处。在做计算的时候,可能涉及对数据的来回调用和存储,这个就是用来临时存放这些数据的本地路径。

 

(2)etc/hadoop/hdfs-site.xml

  1. <configuration>
  2. <property>
  3. <name>dfs.namenode.name.dir</name>
  4. <value>/data04/luozongyuan/bigdata/hadoop_namenode</value>
  5. </property>
  6. <property>
  7. <name>dfs.blocksize</name>
  8. <value>268435456</value>
  9. </property>
  10. <property>
  11. <name>dfs.namenode.handler.count </name>
  12. <value>100</value>
  13. </property>
  14. <property>
  15. <name>dfs.datanode.data.dir</name>
  16. <value>/data04/luozongyuan/bigdata/hadoop_datanode</value>
  17. </property>
  18. <property>
  19. <name>dfs.replication</name>
  20. <value>2</value>
  21. </property>
  22. <property>
  23. <name>dfs.http.address</name>
  24. <value>0.0.0.0:39407</value>
  25. </property>
  26. </configuration>

dfs.namenode.name.dir:执行任务的时候,每个节点都会有每个节点的一些状态、日志或一些其他想关信息,该路径会存放相关的节点数据

dfs.blocksize:hdfs以块为单位存放文件数据,单位是B,所以以上大约是250M一块,当文件大于这个大小时,会被自动进行分块存储,小于这个大小时,也会占用这么大的存储容量

dfs.namenode.handler.count:线程池大小。这个你设置多了,cpu也会自己进行调度,只是别太大,那就太过分了。

dfs.datanode.data.dir:这个跟dfs.namenode.name.dir存放的不一样,这个路径存放的是计算过程的中间数据的,比如map等待reduce的过程,数据量太大,存的就是这里。两者的区别可以简单描述:一个人(name)背了一个书包(data),其中呢,dfs.namenode.name.dir存放了这个人的信息,比如:男,年龄25,身高175,黑白相间的reshake潮牌,华莱士耐克鞋,走在五道口地铁站旁20米处;dfs.datanode.data.dir指的就是,包里有语文书20本,数学书10本,笔记本一本,文具盒一个,充电宝一个等。我们的计算过程,重点要的是书包里的数据,这个人只是在计算过程中的一个载体,他可以是其他人。

dfs.replication:副本数,这个不需要解释了

dfs.http.address:集群web ui的入口,就是你可以通过这个地址查看集群的工作状态

 

(3)etc/hadoop/hadoop-evn.sh

export JAVA_HOME=/data04/luozongyuan/bigdata/java/java_main/

输入这一行就够了

 

(4)etc/hadoop/workers

  1. salve1
  2. slave2
  3. slave3

(5)etc/hadoop/yarn-site.xml

  1. <configuration>
  2. <property>
  3. <name>yarn.resourcemanager.hostname</name>
  4. <value>slave1</value>
  5. </property>
  6. <property>
  7. <name>yarn.nodemanager.aux-services</name>
  8. <value>mapreduce_shuffle</value>
  9. </property>
  10. <property>
  11. <name>yarn.resourcemanager.webapp.address</name>
  12. <value>0.0.0.0:39405</value>
  13. </property>
  14. <property>
  15. <name>yarn.nodemanager.pmem-check-enabled</name>
  16. <value>false</value>
  17. </property>
  18. <property>
  19. <name>yarn.nodemanager.vmem-check-enabled</name>
  20. <value>false</value>
  21. </property>
  22. </configuration>

yarn.resourcemanager.hostname:资源调度的老大是谁,一般是是你的master机器

yarn.nodemanager.aux-services:shuffle过程必须要配置的一项

yarn.resourcemanager.webapp.address:yarn的web ui控制台,查看集群状态的入口

yarn.nodemanager.pmem-check-enabled和yarn.nodemanager.vmem-check-enabled:分别表示当物理内存(虚拟内存)溢出时,是否杀死任务,false表示不杀死。其实这个写上去还是有用的,因为很多服务器本身有对物理内存和虚拟内存做限制,比如本身有64G内存,但是系统限

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/711738
推荐阅读
相关标签
  

闽ICP备14008679号