当前位置:   article > 正文

Linux环境搭建Hadoop及完全分布式集群_hdfs分布式环境搭建_linux安装hadoop

linux安装hadoop

修改文件:

fs.defaultFS:该参数是配置指定HDFS的通信地址。

hadoop.tmp.dir:该参数配置的是Hadoop临时目录

fs.defaultFS hdfs://hadoop100:9000 hadoop.tmp.dir /opt/hadoopTmp/
配置hdfs-site.xml

打开文件

vi etc/hadoop/hdfs-site.xml

修改文件:

dfs.namenode.http-address:该参数是配置NameNode的http访问地址和端口号。因为在集群规划中指定hadoop100设为NameNode的服务器,故设置为hadoop100:9870。

dfs.namenode.secondary.http-address:该参数是配置SecondaryNameNode的http访问地址和端口号。在集群规划中指定hadoop102设为SecondaryNameNode的服务器,故设置为hadoop102:50090。

dfs.replication:该参数是配置HDFS副本数量,建议不超过从节点数。

dfs.namenode.name.dir:该参数是设置NameNode存放的路径。

dfs.datanode.data.dir:该参数是设置DataNode存放的路径。

dfs.namenode.http-address hadoop100:9870 dfs.namenode.secondary.http-address hadoop102:50090 dfs.replication 2 dfs.namenode.name.dir /opt/hadoopTmp/dfs/name dfs.datanode.data.dir /opt/hadoopTmp/dfs/data
配置yarn-site.xml

打开文件

vi etc/hadoop/yarn-site.xml

修改文件:

参数说明:

yarn.resourcemanager.hostsname:该参数是指定ResourceManager运行在那个节点上。

yarn.resourcemanager.webapp.address:该参数是指定ResourceManager服务器的web地址和端口。

yarn.nodemanager,aux-services:该参数是指定启动时加载server的方式。

yarn.nodemanager.aux-services.mapreduce.shuffle.class:该参数是指定使用mapreduce_shuffle中的类。

yarn.log-aggregation-enable:该参数是配置是否启用日志聚集功能。

yarn.log-aggregation.retain-seconds:该参数是配置聚集的日志在HDFS上保存的最长时间。

yarn.nodemanager.remote-app-log-dir:该参数是指定日志聚合目录。

yarn.resourcemanager.hostsname hadoop100 yarn.resourcemanager.webapp.address hadoop100:8088 yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.aux-services.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler yarn.log-aggregation-enable true yarn.log-aggregation.retain-seconds 106800 yarn.nodemanager.remote-app-log-dir /user/hadoopcontainer/logs
配置mapred-site.xml

打开文件

vi etc/hadoop/mapred-site.xml

修改文件参数说明:

mapreduce.framework.name:该参数是指定MapReduce框架运行在YARN上。

mapreduce.jobhistory.address:该参数是设置MapReduce的历史服务器安装的位置及端口号。

mapreduce.jobhistory.webapp.address:该参数是设置历史服务器的web页面地址和端口。

mapreduce.jobhistory.intermediate-done-dir:该参数是设置存放日志文件的临时目录。

mapreduce.jobhistory.done-dir:该参数是设置存放运行日志文件的最终目录。

mapreduce.framework.name yarn mapreduce.jobhistory.address hadoop102:10020 mapreduce.jobhistory.webapp.address hadoop102:19888 mapreduce.jobhistory.intermediate-done-dir ${hadoop.tmp.dir}/mr-history/tmp mapreduce.jobhistory.done-dir ${hadoop.tmp.dir}/mr-history/done
开放防火墙端口

sudo ufw allow 9000 # 开放HDFS默认端口
sudo ufw allow 9870 # 开放NameNode的http访问地址和端口
sudo ufw allow 8088 # 开放master资源管理器WEb默认端口
sudo ufw allow 50090 # 开放SecondaryNameNode的服务器端口
sudo ufw allow 50020 # 开放DataNode通信端口
sudo ufw allow 8088 # 开放资源管理器的WEB通信端口
sudo ufw allow 10020 # 开放MapReduce通信端口
sudo ufw allow 19888 # 开放历史服务器通信端口

配置主次节点

PS:hadoop3以后slaves改为workers,打开文件:

vim etc/hadoop/slaves
vim etc/hadoop/workers

添加所有子节点的主机名:

hadoop101
hadoop102

分发配置文件

在其他节点查看下当前存放hadoop目录是否具有权限写入,否则后续分发将失败

ls -ld /opt/hadoop

如果没有权限,则输入下列指令开放hadoop目录的写入权限

sudo chmod -R 777 /opt/hadoop

将上述配置好的hadoop相关文件分发到其他虚拟机:

scp -r /opt/hadoop/* test1@hadoop101:/opt/hadoop/
scp -r /opt/hadoop/* test2@hadoop102:/opt/hadoop/

启动集群

在主节点输入格式化命令:

hdfs namenode -format

启动集群

start-all.sh

停止集群

stop-all.sh

验证是否成功

jps

当看到下列内容表示成功:

Master: NameNode、DataNode、ResourceManager、NodeManager

slave1: SecondaryNameNode、DataNode、NodeManager

slave2: DataNode、NodeManager

Web端访问

关闭防火墙:

service iptables stopservice iptables stop

访问HDFS:ip地址:9870;

访问YARN:ip地址:8088;

版本注意事项
  1. Hadoop3版本后,NameNode、Secondary NameNode, DataNode的端口出现了变化。
2版本端口号3版本端口号
namenode80209820
namenode htttp web500709870
namenode https web504709871
secondnamenode https web500919869
secondnamenode https web500919869
secondnamenode http web500909868
datanode ipc500209867
datanode500109866
datanode http web500759864
datanode https web504759865
  1. Hadoop3版本之前的主从节点文件为slaves,3之后为workers

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数大数据工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
img

mg-gZw4N64r-1712527934468)]
[外链图片转存中…(img-wPghsU3U-1712527934468)]
[外链图片转存中…(img-AcOEeMng-1712527934468)]
[外链图片转存中…(img-dcT17NJB-1712527934469)]

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
[外链图片转存中…(img-irxsZOma-1712527934469)]

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/560336
推荐阅读
相关标签
  

闽ICP备14008679号