当前位置:   article > 正文

Spark的前世今生_spark诞生的起源

spark诞生的起源

Spark****产生背景

➢ 计算处理框架种类多,选型复杂

批处理:MapReduce、Hive、Pig

流式计算:Storm

交互式计算:Impala、Presto

机器学习算法:Mahout

➢ 希望能够简化技术选型,在一个统一的框架下,能够完成批处理、流式计算、交互式计算、机器学习算法等

Spark****简介

➢ 由加州大学伯克利分校的AMP实验室开源

➢ 大规模分布式通用计算引擎

➢ 具有高吞吐、低延时、通用易扩展、高容错等特点

➢ 使用Scala语言开发,提供了丰富的开发API,支持Scala、Java、Python、R开发语言

Spark提供多种运行模式

img

Spark****特点

➢ 计算高效

​ • 使用内存计算引擎,提供Cache缓存机制支持迭代计算或多次数据共享

,减少数据读取的IO开销

• DAG引擎,减少多次计算之间中间结果写到HDFS的开销,使用多线程池模型来减少task启动开销,shuffle过程中避免不必要的sort操作以及减少磁盘IO操作

➢ 通用易用

​ • 提供了丰富的开发API,支持Scala、Java、Python、R开发语言

​ • 集成批处理、流处理、交互式计算、机器学习算法、图计算

➢ 运行模式多样

​ • Local、Standalone、Yarn、Mesos

img

Spark****核心概念-RDD

➢ RDD:Resilient Distributed Datasets弹性分布式数据集

• Spark基于RDD进行计算

• 分布在集群中的

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/389437
推荐阅读
相关标签
  

闽ICP备14008679号