Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（ Distributed File System），其中一个组件是HDFS（Hadoop Distributed File System）。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算 [1] 。

2.2.hadoo发展历史

Hadoop起源于Apache Nutch项目，始于2002年，是Apache Lucene的子项目之一 [2] 。2004年，Google在“操作系统设计与实现”（Operating System Design and Implementation，OSDI）会议上公开发表了题为MapReduce：Simplified Data Processing on Large Clusters（Mapreduce：简化大规模集群上的数据处理）的论文之后，受到启发的Doug Cutting等人开始尝试实现MapReduce计算框架，并将它与NDFS（Nutch Distributed File System）结合，用以支持Nutch引擎的主要算法 [2] 。由于NDFS和MapReduce在Nutch引擎中有着良好的应用，所以它们于2006年2月被分离出来，成为一套完整而独立的软件，并被命名为Hadoop。到了2008年年初，hadoop已成为Apache的顶级项目，包含众多子项目，被应用到包括Yahoo在内的很多互联网公司 [2] 。

2.3.hadoop的优势

1.高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖 [3]  。

2.高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中 [3]  。

3.高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快 [3]  。

4.高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配 [3]  。

5.低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比，hadoop是开源的，项目的软件成本因此会大大降低 [3]  。

2.4.hadoop的组成

2.5HDFS概述

HDFS（Hadoop Distributed File System）是一个分布式文件系统

（1）NameNode:存储文件的元数据;如文件名、文件目录结构、文件属性，以及每个文件的块列表和块所在的DataNode等。

(2)DataNode:在本地文件系统存储文件块数据

（3）每隔一段时间对NameNode元数据备份。

2.6Yarn概述

YARN（Yet Another Resource Negotiater）：另一种资源协调者，是Hadoop的资源管理器。

ResourceManager（RM）：整个集群资源（内存、CPU等）的管理者
NodeManager（NM）：单个节点服务器资源管理者
ApplicationMaster（AM）：单个任务运行的管理者
Container：容器，相当于一台独立的服务器，里面封装了任务运行所需要的资源，如内存、CPU、磁盘、网络等

2.7 MapReduce概述

负责海量数据的计算

MapReduce将计算拆成两个阶段：Map和Reduce

Map阶段并行处理输入数据
Reduce阶段对Map结果进行汇总

2.8HDFS、YARN、MapReduce三者关系

2.9大数据技术的生态体系

三.Hadoop运行环境搭建

3.1安装虚拟机环境准备(Vmware)

(1)官网下载安装包

（2）网上找密钥破解

3.2CentOS

系统安装分为两步，第一步配置一台电脑，选配cpu,内存，网卡，磁盘等硬件；第二步：安装系统

1.进入VMware

2.硬件配置

3.操作系统安装

（1）windows10启动虚拟化

(2) 插入CentOS-7-x86_64-DVD-2009.iso

(3)开启虚拟机等待安装，安装完成后，选择语言

（4）设置时间

（5）软件选择

（6）配置完成后，开始安装，设置密码，我的：000000

（7）安装完成后重启

（8）用户名：admin 密码：625989yfa

(9)配置完成

3.3配置IP和主机名称

1.配置vm的IP地址

2.配置Windows10的IP地址

3.配置虚拟机IP,打开终端

（1）出现的问题：目录是中文的

(1) 修改虚拟机中的centos的配置文件

cd /etc/sysconfig/network-scripts 进入配置目录

修改配置文件 vim ifcfg-ens33

（2）配置映射地址，便于后面增加虚拟机（vim /etc/hosts）

（3）查看ip地址 ifconfig

(4)ping外网

（5）查看主机名称

3.4安装xshell远程访问工具

1.下载xshell直接安装，安装完成

2.名称是虚拟机IP地址，用户登录，admin,625989yfa

3.连接成功

4.地址映射

1.C:\Windows\System32\drivers\etc找到host文件，添加IP地址

192.168.10.100 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104
192.168.10.105 hadoop105
192.168.10.106 hadoop106

若没有host文件，复制Imhost.sam,改为host,添加IP地址

2.登录远程连接就好了

5.安装xftp远程访问工具,直接下载点下一步安装。

3.5模版虚拟机准备

1.ping网络是否接通，在/root下操作

2.安装epel-release

yum install -y epel-release

3.关闭防火墙，关闭防火墙开机自启

systemctl stop firewalld

systemctl disable firewalld.service

4.修改用户权限：vim /etc/sudoers，给admin授予root权限

6.卸载虚拟机自带的jdk

rpm -qa | grep -i java

rpm -qa | grep -i java | xargs -l rpm -e --nodeps

7.重启虚拟机：reboot

3.6克隆三台虚拟机

1.右键管理克隆，下一步

2.克隆类型，选择创建完整克隆

3.继续下一步完成克隆

4.开启虚拟机

（1）修改IP

(2)修改主机名称

（3）查看映射地址

（4）重启reboot

（5）检查

1.查看ip地址，主机名称是否修改完毕

2.ping外网

（5）配置克隆的远程连接，检测连接

3.7安装jdk

1.在hadoop103中安装

（1）下载jdk:官网下载Java Downloads | Oracle

（2）进入cd /opt/,查看目录，将安装包拖到software包中（使用文件传输工具xftp）

（3）tar -zxvf +需要解压的包名

(4)配置环境变量（网上找教程）

3.8安装hadoop

1.官网下载hadoop安装包（可以百度）

2.上传到创建的文件夹（opt/software）

3.tar -zxvf +需要解压的包名+ -C/opt/moudle

4.环境变量配置（网上找教程）

5.hadoop目录

四.Hadoop运行模式

.本地模式

.伪分布

.完全分布式

4.1本地运行模式

将内容存储到本地

1.创建一个文件：mkdir wcinput

2.在文件中创建创建文件：vim word.txt

3.在文件中输入

4.执行命令

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.3.jar wordcount wcinput/ ./wcoutput

要有输入输出路径；

4.2 完全分布式运行模式

.准备三台客户机

.安装jdk

.配置环境变量

.安装hadoop

配置环境变量

配置集群

单点启动

配置ssh

群起并测试集群

1.群起集群检测

（1）配置hadoop包中的workers，

(2)分发脚本

2.启动集群

（1）如果是第一次启动，需要初始化,在hadoop103节点格式化NameNode

命令：hdfs namenode -format

(2)

#Tue May 31 21:05:31 CST 2022
blockpoolID=BP-1082797708-192.168.10.103-1654002331440
cTime=1654002331440
clusterID=CID-f66b578a-d46e-4ba4-ac59-f2dfcce02832
layoutVersion=-65
namespaceID=73420816
storageType=NAME_NODE

(3)/sbin目录下启动集群

五.常见错误的解决方案

chchus

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/正经夜光杯/article/detail/777786