当前位置:   article > 正文

大数据技术之Hadoop-运行环境搭建

大数据技术之Hadoop-运行环境搭建

Hadoop 运行环境搭建

 一、VMware准备Linux虚拟机 

 1. 设置VMware网段

 VMware的虚拟网络编辑器中,将VMnet8虚拟网卡的:

  • 网段设置为:192.168.88.0
  • 网关设置为:192.168.88.2

 2. 下载CentOS操作系统

首先,我们需要下载操作系统的安装文件,本次使用CentOS7.6版本进行学习:

https://vault.centos.org/7.6.1810/isos/x86_64/   

首先,我们需要下载操作系统的安装文件,本次使用CentOS7.6版本进行学习: 

 或者直接使用如下链接下载:

https://vault.centos.org/7.6.1810/isos/x86_64/CentOS-7-x86_64-DVD-1810.iso

3. 在VMware中安装CentOS操作系统

打开VMware软件

按照步骤创建虚拟机:

点击完成后,即开启了CentOS系统的安装,耐心等待安装完成即可,后续都是自动化的。

点击用户名:

 

体验Linux的快乐吧。

4. 配置多台Linux虚拟机

我们可以使用VMware提供的克隆功能,基于一台虚拟机去克隆创建多台虚拟机。

首先VMware中,创建一个文件夹,起名为大数据集群

克隆

同样的操作克隆出:node2和node3

对虚拟机的内存进行配置:

  • node1配置为4G内存
  • node2node3配置为2G内存

二 、VMware虚拟机系统设置

1. 对三台虚拟机完成主机名、固定IP、SSH免密登陆等系统设置

1. 1 配置固定IP地址

开启node1,修改主机名为node1,并修改固定ip为:192.168.88.131

  1. #修改主机名
  2. hostnamectl set-hostname node1
  3. #修改IP地址
  4. vim /etc/sysconfig/network-scripts/ifcfg-ens33
  5. IPADDR="192.168.88.131"
  6. #重启网卡
  7. systemctl stop network
  8. systemctl start network#
  9. #或者直接
  10. systemctl restart network

同样的操作启动node2和node3,

修改node2主机名为node2,设置ip为192.168.88.132

修改node2主机名为node3,设置ip为192.168.88.133

1.2 配置主机名映射

在Windows系统中修改hosts文件,填入如下内容:

  1. 192.168.88.131 node1
  2. 192.168.88.132 node2
  3. 192.168.88.133 node3

在3台Linux的/etc/hosts文件中,填入如下内容(3台都要添加)

  1. 192.168.88.131 node1
  2. 192.168.88.132 node2
  3. 192.168.88.133 node3
 1.3 配置SSH免密登录

后续安装的集群化软件,多数需要远程登录以及远程执行命令,我们可以简单起见,配置三台Linux服务器之间的免密码互相SSH登陆

        在每一台机器都执行:`ssh-keygen -t rsa -b 4096`,一路回车到底即可。

        在每一台机器都执行:

  1. ssh-copy-id node1
  2. ssh-copy-id node2
  3. ssh-copy-id node3

        执行完毕后,node1、node2、node3之间将完成root用户之间的免密互通

1.4 创建hadoop用户并配置免密登录

后续大数据的软件,将不会以root用户启动(确保安全,养成良好的习惯)

我们为大数据的软件创建一个单独的用户hadoop,并为三台服务器同样配置hadoop用户的免密互通

        1. 在每一台机器执行:useradd hadoop,创建hadoop用户

        2. 在每一台机器执行:passwd hadoop,设置hadoop用户密码为123456

        3. 在每一台机器均切换到hadoop用户:su - hadoop,并执行 ssh-keygen -t rsa -b 4096,创建ssh密钥

       4 在每一台机器均执行

  1. ssh-copy-id node1
  2. ssh-copy-id node2
  3. ssh-copy-id node3

2. JDK环境部署 

2.1 什么是JDK为什么需要部署它

        JDKJava Development Kit,是用于Java语言开发的环境。

        大数据的很多软件的运行都需要有Java运行环境的支持,所以我们在三台服务器上,预先都部署好JDK环境。

2.2 配置JDK环境

        下载JDK软件:https://www.oracle.com/java/technologies/downloads

在页面下方找到:

下载jdk-8u361-linux-x64.tar.gz

1.创建文件夹,用来部署JDK,将JDK和Tomcat都安装部署到:/export/server 内

mkdir -p /export/server

2. 解压缩JDK安装文件

tar -zxvf jdk-8u351-linux-x64.tar.gz-C /export/server

3. 配置JDK的软链接

ln-s /export/server/jdk1.8.0_351 /export/server/jdk

 4. 配置JAVA_HOME环境变量,以及将$JAVA_HOME/bin文件夹加入PATH环境变量中

  1. # 编辑/etc/profile文件
  2. export JAVA_HOME=/export/server/jdk
  3. export PATH=$PATH:$JAVA_HOME/bin

5. 生效环境变量

source /etc/profile

 6. 配置java执行程序的软链接

  1. # 删除系统自带的java程序
  2. rm -f /usr/bin/java
  3. # 软链接我们自己安装的java程序
  4. Ln-s /export/server/idk/bin/java /usr/bin/java

7. 执行验证

  1. java -version
  2. javac -version

3. 防火墙、SELinux、时间同步

关闭防火墙和SELinux

集群化软件之间需要通过端口互相通讯,为了避免出现网络不通的问题,我们可以简单的在集群内部关闭防火墙。

  1. # 每台机器执行
  2. systemctl stop firewalld
  3. systemctl disable firewalld

Linux有一个安全模块:SELinux,用以限制用户和程序的相关权限,来确保系统的安全稳定。

在当前,我们只需要关闭SELinux功能,避免导致后面的软件运行出现问题即可

  1. # 每台机器执行
  2. vim /etc/sysconfig/selinux
  3. #将第七行,SELINUX=enforcing 改为
  4. SELINUX=disabled
  5. #保存退出后,重启虚拟机即可,千万要注意disabled单词不要写错,不然无法启动系统

4. 修改时区并配置自动时间同步 

以下操作在三台Linux均执行

1. 安装ntp软件

yum install -y ntp

 2. 更新时区

rm -f /etc/localtime;sudo ln -s /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

3. 同步时间

ntpdate -u ntp.aliyun.com

4. 开启ntp服务并设置开机自启

  1. systemctl start ntpd
  2. systemctl enable ntpd

5. 设置快照 

目前Linux虚拟机的状态基本准备就绪,可以对当前状态进行快照保存,以备后续恢复。

对三台虚拟机均执行拍摄快照。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/299090
推荐阅读
相关标签
  

闽ICP备14008679号