当前位置:   article > 正文

Hadoop入门

hadoop入门

目录

一.大数据概念

1.1大数据是什么

1.2大数据特点

二.hadoop入门

2.1hadoop是什么

2.2.hadoo发展历史

2.3.hadoop的优势

 2.4.hadoop的组成

 2.5HDFS概述

2.6Yarn概述

2.7 MapReduce概述

 2.8HDFS、YARN、MapReduce三者关系

 2.9大数据技术的生态体系

 三.Hadoop运行环境搭建

3.1安装虚拟机环境准备(Vmware)

 3.2CentOS

3.3配置IP和主机名称

3.4安装xshell远程访问工具

3.5模版虚拟机准备

3.6克隆三台虚拟机

3.7安装jdk

3.8安装hadoop



一.大数据概念

1.1大数据是什么

大数据:指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量,高增长率和多样化的信息资产。

大数据主要解决,海量数据的采集,存储和分析计算问题。

1.2大数据特点

  • Volume(大量)
  • Velocity(高速)
  • Variety(多样)
  • Value(低价值密度)

二.hadoop入门

2.1hadoop是什么

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统( Distributed File System),其中一个组件是HDFS(Hadoop Distributed File System)。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFSMapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算 [1]  。

2.2.hadoo发展历史

Hadoop起源于Apache Nutch项目,始于2002年,是Apache Lucene的子项目之一 [2]  。2004年,Google在“操作系统设计与实现”(Operating System Design and Implementation,OSDI)会议上公开发表了题为MapReduce:Simplified Data Processing on Large Clusters(Mapreduce:简化大规模集群上的数据处理)的论文之后,受到启发的Doug Cutting等人开始尝试实现MapReduce计算框架,并将它与NDFS(Nutch Distributed File System)结合,用以支持Nutch引擎的主要算法 [2]  。由于NDFS和MapReduce在Nutch引擎中有着良好的应用,所以它们于2006年2月被分离出来,成为一套完整而独立的软件,并被命名为Hadoop。到了2008年年初,hadoop已成为Apache的顶级项目,包含众多子项目,被应用到包括Yahoo在内的很多互联网公司 [2]  。 

2.3.hadoop的优势

1.高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖 [3]  

2.高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中 [3]  。

3.高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快 [3]  。

4.高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配 [3]  。

5.低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低 [3]  。

 2.4.hadoop的组成

 2.5HDFS概述

HDFS(Hadoop Distributed File System)是一个分布式文件系统

 (1)NameNode:存储文件的元数据;如文件名、文件目录结构、文件属性,以及每个文件的块列表和块所在的DataNode等。

  (2)DataNode:在本地文件系统存储文件块数据

(3)每隔一段时间对NameNode元数据备份。

2.6Yarn概述

YARN(Yet Another Resource Negotiater):另一种资源协调者,是Hadoop的资源管理器。

 

  • ResourceManager(RM):整个集群资源(内存、CPU等)的管理者
  • NodeManager(NM):单个节点服务器资源管理者
  • ApplicationMaster(AM):单个任务运行的管理者
  • Container:容器,相当于一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、网络等

2.7 MapReduce概述

负责海量数据的计算

MapReduce将计算拆成两个阶段:Map和Reduce

  • Map阶段并行处理输入数据
  • Reduce阶段对Map结果进行汇总

 2.8HDFS、YARN、MapReduce三者关系

 2.9大数据技术的生态体系

 三.Hadoop运行环境搭建

3.1安装虚拟机环境准备(Vmware)

  (1)官网下载安装包

(2)网上找密钥破解

 3.2CentOS

系统安装分为两步,第一步配置一台电脑,选配cpu,内存,网卡,磁盘等硬件;第二步:安装系统

1.进入VMware

2.硬件配置

 

3.操作系统安装

(1)windows10启动虚拟化

(2) 插入CentOS-7-x86_64-DVD-2009.iso

(3)开启虚拟机等待安装,安装完成后,选择语言

(4)设置时间

(5)软件选择

(6) 配置完成后,开始安装,设置密码,我的:000000

(7)安装完成后重启

(8)用户名:admin 密码:625989yfa

(9)配置完成

3.3配置IP和主机名称

 1.配置vm的IP地址

2.配置Windows10的IP地址

 

3.配置虚拟机IP,打开终端

(1)出现的问题:目录是中文的

 (1) 修改虚拟机中的centos的配置文件

cd /etc/sysconfig/network-scripts 进入配置目录

修改配置文件 vim ifcfg-ens33

 (2)配置映射地址,便于后面增加虚拟机(vim /etc/hosts)

(3)查看ip地址 ifconfig

 

(4)ping外网 

(5)查看主机名称

3.4安装xshell远程访问工具

1.下载xshell直接安装,安装完成

2.名称是虚拟机IP地址,用户登录,admin,625989yfa

 3.连接成功

 4.地址映射

1.C:\Windows\System32\drivers\etc找到host文件,添加IP地址

192.168.10.100 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104
192.168.10.105 hadoop105
192.168.10.106 hadoop106

若没有host文件,复制Imhost.sam,改为host,添加IP地址

2.登录远程连接就好了

 5.安装xftp远程访问工具,直接下载点下一步安装。

3.5模版虚拟机准备

1.ping网络是否接通,在/root下操作

2.安装epel-release

yum install -y epel-release 

3.关闭防火墙,关闭防火墙开机自启

systemctl stop firewalld

systemctl disable firewalld.service

4.修改用户权限:vim /etc/sudoers,给admin授予root权限

 

 6.卸载虚拟机自带的jdk

rpm -qa | grep -i java

 rpm -qa | grep -i java | xargs -l rpm -e --nodeps

7.重启虚拟机:reboot

3.6克隆三台虚拟机

 1.右键管理克隆,下一步

2.克隆类型,选择创建完整克隆

 3.继续下一步完成克隆

4.开启虚拟机

(1)修改IP

  (2)修改主机名称

(3)查看映射地址

(4)重启reboot

(5)检查

  1.查看ip地址,主机名称是否修改完毕

2.ping外网

 (5)配置克隆的远程连接,检测连接

3.7安装jdk

1.在hadoop103中安装

(1)下载jdk:官网下载Java Downloads | Oracle

(2)进入cd /opt/,查看目录,将安装包拖到software包中(使用文件传输工具xftp)

(3)tar -zxvf +需要解压的包名

(4)配置环境变量(网上找教程)

3.8安装hadoop

1.官网下载hadoop安装包(可以百度)

2.上传到创建的文件夹(opt/software)

3.tar -zxvf +需要解压的包名+ -C/opt/moudle

4.环境变量配置(网上找教程)

5.hadoop目录

四.Hadoop运行模式

.本地模式

.伪分布

.完全分布式

4.1本地运行模式

将内容存储到本地

1.创建一个文件:mkdir wcinput

2.在文件中创建创建文件:vim word.txt

3.在文件中输入

4.执行命令

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.3.jar wordcount wcinput/ ./wcoutput

要有输入输出路径;

4.2 完全分布式运行模式

.准备三台客户机

.安装jdk

.配置环境变量

.安装hadoop

配置环境变量

配置集群

单点启动

配置ssh

群起并测试集群

1.群起集群检测

(1)配置hadoop包中的workers,

(2)分发脚本 

2.启动集群

(1)如果是第一次启动,需要初始化,在hadoop103节点格式化NameNode

命令:hdfs namenode -format

(2) 


#Tue May 31 21:05:31 CST 2022
blockpoolID=BP-1082797708-192.168.10.103-1654002331440
cTime=1654002331440
clusterID=CID-f66b578a-d46e-4ba4-ac59-f2dfcce02832
layoutVersion=-65
namespaceID=73420816
storageType=NAME_NODE

(3)/sbin目录下启动集群 

五.常见错误的解决方案

chchus

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/正经夜光杯/article/detail/777786
推荐阅读
相关标签
  

闽ICP备14008679号