赞
踩
目录
大数据:指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量,高增长率和多样化的信息资产。
大数据主要解决,海量数据的采集,存储和分析计算问题。
- Volume(大量)
- Velocity(高速)
- Variety(多样)
- Value(低价值密度)
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统( Distributed File System),其中一个组件是HDFS(Hadoop Distributed File System)。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算 [1] 。
Hadoop起源于Apache Nutch项目,始于2002年,是Apache Lucene的子项目之一 [2] 。2004年,Google在“操作系统设计与实现”(Operating System Design and Implementation,OSDI)会议上公开发表了题为MapReduce:Simplified Data Processing on Large Clusters(Mapreduce:简化大规模集群上的数据处理)的论文之后,受到启发的Doug Cutting等人开始尝试实现MapReduce计算框架,并将它与NDFS(Nutch Distributed File System)结合,用以支持Nutch引擎的主要算法 [2] 。由于NDFS和MapReduce在Nutch引擎中有着良好的应用,所以它们于2006年2月被分离出来,成为一套完整而独立的软件,并被命名为Hadoop。到了2008年年初,hadoop已成为Apache的顶级项目,包含众多子项目,被应用到包括Yahoo在内的很多互联网公司 [2] 。
1.高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖 [3] 。
2.高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中 [3] 。
3.高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快 [3] 。
4.高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配 [3] 。
5.低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低 [3] 。
HDFS(Hadoop Distributed File System)是一个分布式文件系统
(1)NameNode:存储文件的元数据;如文件名、文件目录结构、文件属性,以及每个文件的块列表和块所在的DataNode等。
(2)DataNode:在本地文件系统存储文件块数据
(3)每隔一段时间对NameNode元数据备份。
YARN(Yet Another Resource Negotiater):另一种资源协调者,是Hadoop的资源管理器。
- ResourceManager(RM):整个集群资源(内存、CPU等)的管理者
- NodeManager(NM):单个节点服务器资源管理者
- ApplicationMaster(AM):单个任务运行的管理者
- Container:容器,相当于一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、网络等
负责海量数据的计算
MapReduce将计算拆成两个阶段:Map和Reduce
(1)官网下载安装包
(2)网上找密钥破解
系统安装分为两步,第一步配置一台电脑,选配cpu,内存,网卡,磁盘等硬件;第二步:安装系统
1.进入VMware
2.硬件配置
3.操作系统安装
(1)windows10启动虚拟化
(2) 插入CentOS-7-x86_64-DVD-2009.iso
(3)开启虚拟机等待安装,安装完成后,选择语言
(4)设置时间
(5)软件选择
(6) 配置完成后,开始安装,设置密码,我的:000000
(7)安装完成后重启
(8)用户名:admin 密码:625989yfa
(9)配置完成
1.配置vm的IP地址
2.配置Windows10的IP地址
3.配置虚拟机IP,打开终端
(1)出现的问题:目录是中文的
(1) 修改虚拟机中的centos的配置文件
cd /etc/sysconfig/network-scripts 进入配置目录
修改配置文件 vim ifcfg-ens33
(2)配置映射地址,便于后面增加虚拟机(vim /etc/hosts)
(3)查看ip地址 ifconfig
(4)ping外网
(5)查看主机名称
1.下载xshell直接安装,安装完成
2.名称是虚拟机IP地址,用户登录,admin,625989yfa
3.连接成功
4.地址映射
1.C:\Windows\System32\drivers\etc找到host文件,添加IP地址
192.168.10.100 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104
192.168.10.105 hadoop105
192.168.10.106 hadoop106
若没有host文件,复制Imhost.sam,改为host,添加IP地址
2.登录远程连接就好了
5.安装xftp远程访问工具,直接下载点下一步安装。
1.ping网络是否接通,在/root下操作
2.安装epel-release
yum install -y epel-release
3.关闭防火墙,关闭防火墙开机自启
systemctl stop firewalld
systemctl disable firewalld.service
4.修改用户权限:vim /etc/sudoers,给admin授予root权限
6.卸载虚拟机自带的jdk
rpm -qa | grep -i java
rpm -qa | grep -i java | xargs -l rpm -e --nodeps
7.重启虚拟机:reboot
1.右键管理克隆,下一步
2.克隆类型,选择创建完整克隆
3.继续下一步完成克隆
4.开启虚拟机
(1)修改IP
(2)修改主机名称
(3)查看映射地址
(4)重启reboot
(5)检查
1.查看ip地址,主机名称是否修改完毕
2.ping外网
(5)配置克隆的远程连接,检测连接
1.在hadoop103中安装
(1)下载jdk:官网下载Java Downloads | Oracle
(2)进入cd /opt/,查看目录,将安装包拖到software包中(使用文件传输工具xftp)
(3)tar -zxvf +需要解压的包名
(4)配置环境变量(网上找教程)
1.官网下载hadoop安装包(可以百度)
2.上传到创建的文件夹(opt/software)
3.tar -zxvf +需要解压的包名+ -C/opt/moudle
4.环境变量配置(网上找教程)
5.hadoop目录
.本地模式
.伪分布
.完全分布式
将内容存储到本地
1.创建一个文件:mkdir wcinput
2.在文件中创建创建文件:vim word.txt
3.在文件中输入
4.执行命令
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.3.jar wordcount wcinput/ ./wcoutput
要有输入输出路径;
.准备三台客户机
.安装jdk
.配置环境变量
.安装hadoop
配置环境变量
配置集群
单点启动
配置ssh
群起并测试集群
1.群起集群检测
(1)配置hadoop包中的workers,
(2)分发脚本
2.启动集群
(1)如果是第一次启动,需要初始化,在hadoop103节点格式化NameNode
命令:hdfs namenode -format
(2)
#Tue May 31 21:05:31 CST 2022
blockpoolID=BP-1082797708-192.168.10.103-1654002331440
cTime=1654002331440
clusterID=CID-f66b578a-d46e-4ba4-ac59-f2dfcce02832
layoutVersion=-65
namespaceID=73420816
storageType=NAME_NODE
(3)/sbin目录下启动集群
五.常见错误的解决方案
chchus
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。