当前位置:   article > 正文

Hadoop伪分布与完全分布式的安装_centos的hadoop下载安装教程伪分布式

centos的hadoop下载安装教程伪分布式

1、基础集群环境准备(Centos7)

1.1 修改主机名

1、查看主机名使用命令:hostname
2、root 账号下使用命令:hostnamectl set-hostname hadoop01
hadoop01为修改的主机名

1.2 配置 hadoop 用户 sudoer 权限

1、 在 root 账号下,命令终端输入:vi /etc/sudoers
2、找到
root ALL=(ALL) ALL
这一行,然后在他下面添加一行:
hadoop ALL=(ALL) ALL
保存,退出
hadoop为本主机用户

1.3 配置 IP地址

进入配置文件目录:cd etc/sysconfig/network-scripts
编辑配置文件:vi ifcfg-ens33
修改IP分配为静态:BOOTPROTO=static
修改网络自启动:ONBOOT=yes

添加IP地址、子网掩码、网关、外网:
IPADDR=192.168.32.10
NETMASK=255.255.255.0
GATEWAY=192.168.32.2
DNS1=8.8.8.8

DNS2=114.114.114.114
esc退出编辑,” :wq ”保存退出;
重启网络:systemctl restart network

查看IP命令:ifconfig
查看IP配置命令:ip a
最后网络结果:ping baidu.com 成功

1.4 关闭防火墙/关闭 Selinux

1、关闭防火墙(CentOS7):
(1) firewall-cmd --state #查看防火墙状态
(2) systemctl stop firewalld.service #停止 firewall
(3) systemctl disable firewalld.service #禁止 firewall 开机启动
2、关闭 Selinux:具体做法是修改/etc/selinux/config 配置文件中的 SELINUX=disabled

1.5 添加内网域名映射

1、修改配置文件:vim /etc/hosts

1.6 安装 JDK

XSell下载文件上传工具:yum install lrzsz
上传命令:rz回车
上传 jdk-8u151-linux-x64.tar.gz
解压:tar –xzvf jdk-8u151-linux-x64.tar.gz -C apps/
换名:mv jdk-8u151-linux-x64.tar.gz jdk
配置JDK环境变量:vi /etc/profile
export JAVA_HOME=/home/hadoop/apps/jdk
export PATH=$PATH:$JAVA_HOME/bin

重启配置文件:source /etc/profile
测试:java –version

1.7 同步服务器时间

查看时间:date,date –R ,date “+%Y-%m-%d %H:%M:%S”
修改时区:sudo cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime
或者:sudo ln -sf /usr/share/zoneinfo/Asia/Shanghai /etc/localtime
同步时间:sudo ntpdate ntp.aliyun.com
或者:sudo ntpdate ntp.sjtu.edu.cn
执行如下命令将系统时间同步到硬件,防止系统重启后时间被还原: hwclock --systohc
添加任务(每隔3分钟同步一次):crontab -e
*/3 * * * * sudo ntpdate ntp.aliyun.com

1.8 配置免密登录

在用户 ~ 下输入命令:ssh-keygen 或者 ssh-keygen -t rsa
会在 ~ 下生成隐藏文件: .ssh 目录下生成了公钥文件
发送公钥:先 cd .ssh 再命令:ssh-copy-id hadoop01

2、Hadoop 集群环境安装

2.1 Hadoop 版本选择

安装版本:2.7.6
安装节点:3个节点
官网地址:http://hadoop.apache.org/

2.2 hadoop 伪分布式模式安装

Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行, 节点即作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件。 Hadoop 的配置文件位于 hadoop-2.7.5/etc/hadoop/文件夹中,伪分布式需要修改两个配置文 件 core-site.xml 和 hdfs-site.xml(其中 hdfs-site.xml 用来配置数据块的副本数量,对于伪分布 式来说,不管你配置几个副本数量,它始终都只有一个副本,所以可以不用管)。Hadoop 配置文件是 xml 格式,每个配置文件以声明 property 的 name 和 value 的方式来实现。
1、上传hadoop安装包:hadoop-2.7.5.tar.gz
2、解压:tar -xzvf hadoop-2.7.5.tar.gz -C /home/hadoop/apps/
3、重命名:mv hadoop-2.7.5.tar.gz hadoop
4、配置hadoop环境变量:vi /etc/profile
export HADOOP_HOME=/home/hadoop/apps/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
重启环境配置文件:source /etc/profile
5、修改hadoop配置文件:
配置文件1:vi hadoop/etc/hadoop/hadoop-env.sh
修改JDK安装路径:export JAVA_HOME=/home/hadoop/apps/jdk
配置文件2:vi hadoop/etc/hadoop/core-site.xml
添加:

<configuration> 
	<!-- 指定 HDFS 老大(namenode)的通信地址 --> 
	<property> 
		<name>fs.defaultFS</name>
		<value>hdfs://hadoop01:9000</value> 
	</property> 
	<!-- 指定 hadoop 运行时产生文件的存储路径 --> 
	<property> 
		<name>hadoop.tmp.dir</name> 
		<value>/opt/hadoop/temp</value>
	</property> 
</configuration>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12

配置文件3:vi hadoop/etc/hadoop/slaves

hadoop01
  • 1

6、格式化namenode:hadoop namenode -format
7、启动集群:start-dfs.sh
8、在Windows下C:\Windows\System32\drivers\etc\hosts下配置IP映射。
192.168.1.27 hadoop01
9、检查是否启动成功
(1) 利用 jps 工具检测各进程是否启动成功 。
(2) 利用 web UI 查看 http://hadoop01:50070

2.3 hadoop 完全分布式模式安装

1、集群规划:

HDFSYARN
hadoop01NameNode+DataNode 主节点NodeManager
hadoop02DataNode+SecondaryNamenodeNodeManager
hadoop03DataNodeNodeManager+ResourceManager 主节点

2、上传hadoop安装包:hadoop-2.7.5.tar.gz
3、解压:tar -xzvf hadoop-2.7.5.tar.gz -C /home/hadoop/apps/
4、重命名:mv hadoop-2.7.5.tar.gz hadoop
5、配置hadoop环境变量:vi /etc/profile
export HADOOP_HOME=/home/hadoop/apps/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
重启环境配置文件:source /etc/profile
6、修改 core-site.xml:

<configuration> 
	<!-- 指定 HDFS 老大(namenode)的通信地址 --> 
	<property> 
		<name>fs.defaultFS</name>
		<value>hdfs://hadoop01:9000</value> 
	</property> 
	<!-- 指定 hadoop 运行时产生文件的存储路径 --> 
	<property> 
		<name>hadoop.tmp.dir</name> 
		<value>/opt/hadoop/temp</value>
	</property> 
</configuration>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12

7、修改 hdfs-site.xml:

<configuration>
	<!-- 设置 namenode 的 http 通讯地址 --> 
	<property> 
		<name>dfs.namenode.http-address</name> 
		<value>hadoop01:50070</value> 
	</property> 
	<!-- 设置 secondarynamenode 的 http 通讯地址 --> 
	<property> 
		<name>dfs.namenode.secondary.http-address</name> 
		<value>hadoop02:50090</value> 
	</property> 
	<!-- 设置 namenode 存放的路径 --> 
	<property> 
		<name>dfs.namenode.name.dir</name> 
		<value>/opt/hadoop-2.7.5/hdfs/name</value> 
	</property> 
	<!-- 设置 hdfs 副本数量 --> 
	<property> 
		<name>dfs.replication</name> 
		<value>2</value> </property> 
	<!-- 设置 datanode 存放的路径 --> 
	<property> 
		<name>dfs.datanode.data.dir</name> 
		<value>/opt/hadoop-2.7.5/hdfs/data</value> 
	</property> 
	<!-- 设置取消访问控制检查 --> 
	<property> 
		<name>dfs.permissions</name> 
		<value>false</value> 
	</property> 
</configuration>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31

8、修改 mapred-site.xml(集群中只有 mapred-site.xml.template,可以从这个文件进行复制, 或者直接改名也可以):

<configuration> 
	<property> 
		<name>mapreduce.framework.name</name> 
		<value>yarn</value> 
	</property> 
</configuration>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

9、修改 yarn-site.xml:

<configuration> 
	<property> 
		<name>yarn.resourcemanager.hostname</name> 
		<value>hadoop03</value> 
	</property> 
	<property> 
		<name>yarn.nodemanager.aux-services</name> 
		<value>mapreduce_shuffle</value> 
	</property> 
</configuration>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

10、修改 slaves 文件,添加以下内容,该内容是从节点列表:

hadoop01
hadoop02
hadoop03
  • 1
  • 2
  • 3

11、分发安装包到各个节点,Hadoop 的每个节点都需要 hadoop 安装包:

scp -r /home/hadoop/apps/hadoop hadoop@hadoop02:$PWD 
scp -r /home/hadoop/apps/hadoop hadoop@hadoop03:$PWD
  • 1
  • 2

12、在 HDFS 主节点上执行命令进行初始化 namenode:

hadoop namenode -format
  • 1

13、在 HDFS 主节点上启动 HDFS,其实在哪个节点启动并无关系:

start-dfs.sh
  • 1

结果:
在主节点启动了 NameNode 守护进程 在从节点启动了DataNode 守护进程 在配置的一个特定节点上会启动SecondaryNameNode 进程。
14、检测集群是否启动成功
(1)检测 hdfs 是否启动成功:

hadoop fs -ls / 
  • 1

(2)Hdfs 集群信息 web 管理界面地址 :

http://hadoop01:50070
  • 1

3、集群初步使用

3.1 Hadoop 集群启动

DFS 集群启动:start-dfs.sh
DFS 集群关闭:stop-dfs.sh
YARN 集群启动:start-yarn.sh
YARN 集群关闭:stop-yarn.sh
一起启动:start-all.sh
一起关闭:stop-all.sh

3.2 HDFS 集群初步使用

查看集群文件:hadoop fs -ls / 
上传文件:hadoop fs -put filepath destpath 
下载文件:hadoop fs -get destpath 
创建文件夹:hadoop fs -mkdir /hadoopdata 
查看文件内容:hadoop fs -cat /hadoopdata/myfile.txt
  • 1
  • 2
  • 3
  • 4
  • 5

4、学习内容

上节学习内容:大数据入门了解
下节学习内容:HDFS 基础入门了解

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/611326
推荐阅读
相关标签
  

闽ICP备14008679号