赞
踩
本文着重分解Hadoop理论基础及底层原理
文中涉及的Hadoop是基于2.x版本(2.9)
通常,大数据具有如下5大特点(5V):
采集、存储和计算的数据量都非常大
以PB为例,PB级数据量有多大?是怎样的一个概念?
假如⼿机播放MP3的速度为平均每分钟1MB,而1⾸歌曲的平均时长为4分钟,那么1PB存量的歌曲可以连续播放2000年。
1PB 也相当于50%的全美学术研究图书馆藏书咨询内容。
(1)1986年,全球只有0.02EB也就是约21000TB的数据量
(2)2007年,全球就是280EB也就是约300000000TB的数据量,翻了14000倍
(3)近些年,由于移动互联网及物联网的出现,各种终端设备的接入,各种业务形式的普及,平均每40个⽉,全球的数据量就会翻倍!2012年,每天会产生2.5EB的数据量
(4)基于IDC的报告预测,从2013年到2020年,全球数据量会从4.4ZB猛增到44ZB!而到了2025年,全球会有163ZB的数据量!
全球的数据量已经大到爆了!而传统的关系型数据库根本处理不了如此海量的数据!
在大数据时代,数据的创建、存储、分析都要求被高速处理
数据形式和来源多样化,可分为结构化数据、半结构化数据和非结构化数据
例如:RDBMS、Excel
例如:XML、JSON、HTML、网络日志
例如:音频、视频、图片、Word、Text
确保数据的真实性,才能保证数据分析的正确性
互联网发展催生了大量数据,信息海量,但价值密度较低
智能分仓、就近备货和预测式调拨(京东、苏宁)
分析挖掘用户行为数据,为用户实时推荐个性化内容
电信套餐:根据用户画像,匹配哪种套餐适合哪类人群
利用物联网+大数据的无人驾驶汽车
流行病预测、智慧医疗、健康管理
例如:影像大数据支撑下的早期肺癌支撑平台,基于大量病例数据样本,制定早期肺癌高危人群预警指标
语音识别、机器人技术(如AlphaGo)等
大数据有效支撑智慧城市发展,成为城市的“数据大脑”
例如:覆盖面广的移动支付、新颖的在线医疗模式、创新的物流运输模式
Hadoop 是一个大数据的分布式存储和计算平台,有狭义和广义之分。
一个框架平台。
代表大数据的一个技术生态圈,包括很多其他软件框架。
Apache(非营利性组织)发布的免费开源版本
Cloudera(商业公司)发布的收费软件,可在生产环境使用
HortonWorks(商业公司,已被Cloudera收购)发布的收费软件,可在生产环境使用
Hadoop当中最早的一个开源版本,在此基础上演变而来的1.x以及2.x的版本
Hadoop版本当中的第二代开源版本,主要修复0.x版本的一些bug等
架构产生重大变化,引入了YARN平台等许多新特性
EC技术、YARN的时间轴服务等新特性
具有存储和处理海量数据的能力
集群可以方便地扩展到数以千计的节点中
可使用廉价机器即可搭建集群
能够在节点之间进行动态地移动数据,并保证各个节点的动态平衡,处理速度非常快
HDFS(Hadoop Distributed File System )是一个高可靠的、高吞吐量的分布式文件系统。
1. HDFS 通过统一的命名空间目录树来定位文件
2. HDFS 是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的⻆⾊,分布式本质是拆分,各司其职
作用:管理和维护文件的元数据
比如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
- 注意:如果NameNode挂掉,即便分散在各DataNode上的数据块是正常的,那么整个HDFS集群依然不可用(因为我们无法得知数据块的存储位置等元数据信息)
作用:辅助NameNode更好地工作
用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据快照
作用:在本地文件系统存储文件块数据,以及块数据的校验
1. HDFS集群的管理者
2. 维护管理HDFS的命名空间(NameSpace)
3. 维护副本策略
4. 记录文件块(Block)的映射信息
5. 负责处理客户端读写请求
1. 真正负责Block存储的角色
2. 负责Block的读写
1. 负责将文件切分成Block,然后上传
2. 请求NameNode交互,获取文件的位置信息
3. 读取或写入文件,与DataNode交互
4. Client可以使用一些命令来管理HDFS或者访问HDFS
HDFS常用操作命令如下:
# 显示目录信息
hdfs dfs -ls
# 在HDFS上创建目录
hdfs dfs -mkdir
# 从本地文件系统中拷⻉文件到HDFS路径去
hdfs dfs -put/-copyFromLocal
# 从HDFS拷⻉到本地
hdfs dfs -get/-copyToLocal
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。