赞
踩
全样而非抽样,效率而非精确,相关而非因果
Volume 大量,Value 价值密度低,Velocity 快速,Variety 多样化
运营式系统阶段
数据库管理
数据由运营活动被动产生
用户原创内容
数据爆发的标志:用户原创内容;时间:Web 2.0;
主动产生数据。
感知式系统
VR/AR
数据第三次大飞跃导致大数据产生
经验(实验),理论,计算,数据探索型(第四范式)
不同计算模式对实时性和吞吐量的要求不同
大规模数据批量处理
MapReduce、Spark
流式数据实时分析
Stream,Storm,Dstream,Flume
大规模图结构数据的处理
Pregel
大规模数据存储管理和查询分析
Hive
从下往上数据收集、数据存储、资源管理与服务协调、数据分析、数据可视化
数据源特点
异构性、多样性、分布式、流式产生
收集系统特点
可靠性、可扩展性、安全性、低延迟
可扩展性:适配不同数据源&接受大量数据不产生系统瓶颈
可靠:数据传输过程中不能丢失
安全:敏感数据不能泄密
应用
结构化数据:canal(增量收集),Sqoop(全量收集)
非结构化数据:flume
分布式队列(缓存、数据总线):kafka
特点
容错性,可扩展性(数据量是增长的),支持多种数据模型(数据是异构的)
应用
列簇式:HDFS,HBase(建立在HDFS上的数据库)
纯列式:Kudu
资源状态 != 任务状态
引入统一资源管理层的好处:
资源利用率高、运维成本低、资源共享
资源利用率高
负载均衡
运维成本低
一管多:一个管理员即可完成多个框架的统一管理
数据共享
减少数据移动带来的硬件和时间成本
应用
Zookeeper、Yarn
计算引擎类别VS大数据计算模式
根据对实时性(吞吐量/延迟)的不同要求,(按延迟要求从低到高)分为三类:批处理、交互式、实时处理
直接跟用户应用程序对接
利用计算机图形学和图像处理技术
直接面向用户展示结果
分布式文件系统,良好的容错性(尤其突出)、可扩展性、可用性。
良好的容错性使其扩展性强:使得文件系统可以构建在大量普通廉价的机器上,便于横向扩展。
构建在GFS上的数据库——本质:稀疏、分布式、持久化的多维度排序映射表
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。