当前位置:   article > 正文

北邮-大数据技术基础复习【概述】_北邮大数据技术与应用期末

北邮大数据技术与应用期末

大数据历史

  1. 大数据发展的基石 :goodle,2003-2006,三篇论文:GFS,MapReduce,BigTable。
  2. Hadoop之父Doug Cutting 参考了相关论文,目前开源领域最有影响力之一的Hadoop框架。

大数据带来的思维转变

全样而非抽样,效率而非精确,相关而非因果

大数据4V特征

Volume 大量,Value 价值密度,Velocity 快速,Variety 多样化

大数据的产生阶段

  1. 运营式系统阶段
    数据库管理
    数据由运营活动被动产生

  2. 用户原创内容
    数据爆发的标志:用户原创内容;时间:Web 2.0;
    主动产生数据。

  3. 感知式系统
    VR/AR
    数据第三次大飞跃导致大数据产生

科学研究四范式

经验(实验),理论,计算,数据探索型(第四范式)

大数据的计算模式

不同计算模式对实时性和吞吐量的要求不同

  • 批处理计算

大规模数据批量处理
MapReduce、Spark

  • 流计算

流式数据实时分析
Stream,Storm,Dstream,Flume

  • 图计算

大规模图结构数据的处理
Pregel

  • 查询分析计算

大规模数据存储管理和查询分析
Hive

大数据技术框架——6层结构

从下往上数据收集、数据存储、资源管理与服务协调、数据分析、数据可视化

数据收集
  • 数据源特点
    异构性、多样性、分布式、流式产生

  • 收集系统特点
    可靠性、可扩展性、安全性、低延迟
    可扩展性:适配不同数据源&接受大量数据不产生系统瓶颈
    可靠:数据传输过程中不能丢失
    安全:敏感数据不能泄密

  • 应用
    结构化数据:canal(增量收集),Sqoop(全量收集)
    非结构化数据:flume
    分布式队列(缓存、数据总线):kafka

数据存储
  • 特点
    容错性,可扩展性(数据量是增长的),支持多种数据模型(数据是异构的)

  • 应用
    列簇式:HDFS,HBase(建立在HDFS上的数据库)
    纯列式:Kudu

资源管理与服务协调

资源状态 != 任务状态
引入统一资源管理层的好处:
资源利用率高、运维成本低、资源共享

  • 资源利用率高
    负载均衡

  • 运维成本低
    一管多:一个管理员即可完成多个框架的统一管理

  • 数据共享
    减少数据移动带来的硬件和时间成本

  • 应用
    Zookeeper、Yarn

计算引擎

计算引擎类别VS大数据计算模式
根据对实时性(吞吐量/延迟)的不同要求,(按延迟要求从低到高)分为三类:批处理、交互式、实时处理

  • 批处理
    对响应速度要求最低,追求高吞吐率
    处理时间一般分钟到小时级别,甚至天级别
    应用:构建搜索引擎的索引、数据挖掘、机器学习
  • 交互式
    处理时间一般为秒级别,需要系统与人交互
    应用:数据查询、参数化报表生成、OLAP(联机分析处理Online Analytical Processing)
  • 实时处理
    对响应速度要求最高,处理时间要求在秒级以内
    应用:广告系统、舆情分析、信用卡欺诈检测
  • 应用
    批处理:MapReduce,Spark
    流计算:Spark Streaming,Storm
    图计算:Pregel
数据分析

直接跟用户应用程序对接

数据可视化

利用计算机图形学和图像处理技术
直接面向用户展示结果

GFS(对应的开源实现:HFS)

分布式文件系统,良好的容错性(尤其突出)、可扩展性、可用性。
良好的容错性使其扩展性强:使得文件系统可以构建在大量普通廉价的机器上,便于横向扩展。

BigTable(对应的开源实现:HBase)

构建在GFS上的数据库——本质:稀疏、分布式、持久化的多维度排序映射表

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/爱喝兽奶帝天荒/article/detail/792094
推荐阅读
相关标签
  

闽ICP备14008679号