赞
踩
无法再一定时间范围内用软件工具进行管理与处理的数据集合称之为大数据。
大数据技术主要解决存储和分析计算问题.
1.4V特征
- A. Valume 大量 (KB->MB->GB->TB->PB->EB->ZB) - B. Velocity 高速 分布式技术(N台计算机同时运算.) - C. Variety 多样 (存储结构化数据与非结构化数据和半结构化数据) - D .Value 低价值密度
2. 结构化、非结构化、半结构化
结构化:数据库表中的数据.
非结构:图片、视频
半结构:日志
例子:购物->本地仓
1.所有商品都有吗?
2.有的物品,都有多少?
经过大数据的分析(分析本地购物数据),助力精细化运营,促进销量,节约成本.
例子:猜你喜欢
浏览一个东西,推荐一堆相关物品,促进购买.
1.Hadoop是什么?
- Hadoop 是apache基金会开发并维护的分布式系统架构 - 主要解决海量数据<u>**存储**</u>和分析**<u>计算</u>**问题 - 广义上Hadoop现在指的就是Hadoop的生态圈(N个组件)
2. Hadoop发展历史
最早起源lucene 全文检索(一个开源的查询引擎和索引引擎)
2001年成为apache的子项目
出现海量数据存储的困难,检索速度奇慢
google三大论文成为Hadoop的思想之源(Hadoop的根)
三篇论文分别是:
GFS -> HDFS
Map-Reduce -> MR
BigTable -> HBase
3. Hadoop的三大发行版本
Apache 基础入门
cloudera 创始人加入
hortonworks 8成的源码写作人加入
类似android ,华为emui 小米miui .
发行版C和H的特性:包含了 一键集群,性能优化,各种资源的可视化等.
4.Hadoop的4H优势
高可靠性:多数据副本,数据不会丢失
高扩展性:随时随地扩展集群节点.
高效性: MR并行计算
高容错:自动将失败的任务重新分配重新执行.
5. Hadoop 1.x 与 Hadoop 2.x 区别
Haoop 1.x | Hadoop 2.x |
---|---|
MapReduce 负责计算和资源调度 HDFS 负责数据存储 | MapReduce 只负责计算 Yarn 负责资源调度 HDFS 负责数据存储 |
总结:
在hadoop1.x中 MR同时处理业务计算和资源调度
在hadoop2.x 中增加了Yarn,MR只负责计算,Yarn 只负责调度
Hadoop 最新版本为3.x 最稳定版本为2.7.2
帮助文档:在share/doc/hadoop/index.html
1.HDFS
分布式文件系统.由多个节点组成的文件管理系统.
NameNode(NN): 存储文件的元数据(描述数据的数据叫元数据,包含了文件名、目录、生成时间、副本数等.)以及每个文件的块列表和块所在的DataNode信息等.
DataNode(DN):在本地文件系统存储文件块的数据,以及数据的校验值.
Secondary NameNode(2NN):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS的元数据快照.
2. Yarn
负责调度算力、CPU、内存
ResourceManager(RM):
A.负责处理客户端请求
B.监控NodeManager
C.启动或监控Application Master
D.资源的分配与调度
NodeManager(NM):
A.管理单个节点的资源
B.处理来自RM的命令
C.处理来自AM的命令
Application Manager (AM):
A.负责数据切分
B.申请资源并分配
C.任务监控与容错处理
conatiner
它是Yarn中的资源抽象,封装了某个节点上的多维度信息:如内存,CPU,磁盘,网络等.
3.MapReduce
计算过程分为两个阶段:
A.Map阶段:并行处理输入数据.
B.Reduce阶段:对Map阶段的结果进行汇总.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。