当前位置:   article > 正文

hadoop之旅2-centerOS7: 搭建分布式hadoop环境

hadoop下载已经搭建好的center环境

大家可能在网上一搜索大数据,巴拉巴拉一大堆的理论性的东西扑面而来,都是这样过来的,当时一脸懵逼,所以在此就不给大家再介绍理论性的知识了,直接带大家搭建分布式的开发环境。

hadoop的分布式架构 (一主二从)

主机名ip地址namenodedatanode
master192.168.6.133
slave1192.168.6.131
slave2192.168.6.132

第一步

虚拟机,java环境准备

需要有一台centerOS7虚拟机,同时已经搭建好了jdk的环境,如有疑问可移驾 hadoop之旅1-centerOS7: 搭建java环境

第二步

软件准备

准备好hadoop的开发包

  1. apache官网下载
  2. apache历史版本库下载
  3. 我给大家分享的百度云链接下载 版本:hadoop-2.7.3
  4. 我使用filezilla软件将解压包放入linux系统,大家也可以通过wget命令直接下载到linux系统中

第三步

解压hadoop,重命名

  1. 在下载的hadoop压缩包的目录下解压hadoop压缩包
  1. [root@localhost mmcc]# tar -zxvf hadoop-2.7.3.tar.gz
  2. ....
  3. //重命名目录名称(可选)
  4. [root@localhost mmcc]# mv hadoop-2.7.3/ hadoop2.7.3
  5. 复制代码
  1. 查看hadoop的根路径
  1. [root@localhost mmcc]# cd hadoop2.7.3/
  2. [root@localhost hadoop2.7.3]# pwd
  3. /home/mmcc/hadoop2.7.3 //配置环境变量时会用到
  4. 复制代码

第四步

配置环境变量

  1. /etc/profile最下面,hadoop之旅1-centerOS7: 搭建java环境章节配置的PATH,CLASSPATH上面增加环境变量配置
  1. HADOOP_HOME=/home/mmcc/hadoop2.7.3
  2. PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$JAVA_HOME/bin:$PATH:.
  3. 复制代码
  1. 使环境变量生效
  1. [root@localhost jdk1.8]# source /etc/profile
  2. 复制代码
  1. 配置hadoop的java环境,编辑hadoop根目录下/etc/hadoop/下的hadoop.env.sh脚本文件
  1. vi /hadoop-2.7.3/etc/hadoop/hadoop.env.sh
  2. export JAVA_HOME=/home/mmcc/jdk1.8 //配置java的环境目录
  3. 复制代码
  1. 配置hadoop的启动环境,编辑hadoop根目录下/etc/hadoop/下的core-site.xml文件。
  1. <property>
  2. <name>fs.defaultFS</name>
  3. <value>hdfs://master:9000</value> (master处为当前主机ip或主机名)
  4. </property>
  5. 复制代码

此处的master后面会教大家

第五步

分布式环境搭建

  1. 此处为了方便,直接通过虚拟机克隆的方式,将镜像克隆多份,这样在此之前搭建的所有环境都是同步存在的

  1. 使用该命令给每个节点的设置对应的主机名
  1. [root@localhost mmcc]# hostnamectl set-hostname master/slave1/slave2
  2. 复制代码
  1. 检测网络
  1. [root@localhost mmcc]# ifconfig
  2. ens33: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
  3. inet 192.168.6.133 netmask 255.255.255.0 broadcast 192.168.6.255
  4. inet6 fe80::3d1d:5127:6666:c62d prefixlen 64 scopeid 0x20<link>
  5. ether 00:0c:29:f4:ef:5d txqueuelen 1000 (Ethernet)
  6. RX packets 317168 bytes 315273916 (300.6 MiB)
  7. RX errors 0 dropped 0 overruns 0 frame 0
  8. TX packets 149675 bytes 14400069 (13.7 MiB)
  9. TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
  10. lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
  11. inet 127.0.0.1 netmask 255.0.0.0
  12. inet6 ::1 prefixlen 128 scopeid 0x10<host>
  13. loop txqueuelen 1 (Local Loopback)
  14. RX packets 12826 bytes 3163428 (3.0 MiB)
  15. RX errors 0 dropped 0 overruns 0 frame 0
  16. TX packets 12826 bytes 3163428 (3.0 MiB)
  17. TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
  18. 复制代码

如果查询不到ip地址,需要配置网络

  1. cd /etc/sysconfig/network-scripts/
  2. vi ifcfg-ens33 (我的虚拟机版本,别的版本可能不一样)
  3. ONBOOT="yes" 表开启网络。
  4. 复制代码
  1. 设置网络别名,即IP对应的别名 如:hdfs://master:9000
  1. [root@localhost network-scripts]# vi /etc/hosts
  2. 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
  3. ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
  4. 192.168.6.133 master
  5. 192.168.6.131 slave1
  6. 192.168.6.132 slave2
  7. 复制代码

重启网络

  1. service network restart 重启网络
  2. 复制代码

然后大家可以试着ping master/slave1/slave2如果ping通说明配置成功

  1. 格式化hdfs,在每台节点上执行以下命令
  1. hdfs namenode -format
  2. 复制代码

启动之前进行格式化,如果没有error和Exception 表示格式化成功

6. master主机配置hadoop集群节点
  1. cd /home/mmcc/hadoop2.7.3/etc/hadoop
  2. [root@localhost hadoop]# vi slaves
  3. //增加以下内容
  4. slave1
  5. slave2
  6. 复制代码
7. 关闭每个节点防火墙,启动hdfs服务,
  1. [root@localhost mmcc]# systemctl stop firewalld
  2. [root@localhost mmcc]# hadoop-daemon.sh start namenode //主节点master
  3. [root@localhost mmcc]# hadoop-daemon.sh start datanode //从节点slave1,slave2
  4. 复制代码

然后可以在网页上输入主节点的地址master:50070ip地址:50070查看当前的状态及其节点状态哦。到此一个分布式的hadoop环境已经成功启动。 下一节会教大家如何进行免密登录,一键启动集群,及一些简单的hdfs文件存储命令, 大家在配置过程中如果有什么问题可以查看log日志进行问题排查。欢迎加我微信一起学习一起进步哈

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/352775
推荐阅读
相关标签
  

闽ICP备14008679号