赞
踩
Spark****产生背景
➢ 计算处理框架种类多,选型复杂
批处理:MapReduce、Hive、Pig
流式计算:Storm
交互式计算:Impala、Presto
机器学习算法:Mahout
➢ 希望能够简化技术选型,在一个统一的框架下,能够完成批处理、流式计算、交互式计算、机器学习算法等
Spark****简介
➢ 由加州大学伯克利分校的AMP实验室开源
➢ 大规模分布式通用计算引擎
➢ 具有高吞吐、低延时、通用易扩展、高容错等特点
➢ 使用Scala语言开发,提供了丰富的开发API,支持Scala、Java、Python、R开发语言
➢ Spark提供多种运行模式
Spark****特点
➢ 计算高效
• 使用内存计算引擎,提供Cache缓存机制支持迭代计算或多次数据共享
,减少数据读取的IO开销
• DAG引擎,减少多次计算之间中间结果写到HDFS的开销,使用多线程池模型来减少task启动开销,shuffle过程中避免不必要的sort操作以及减少磁盘IO操作
➢ 通用易用
• 提供了丰富的开发API,支持Scala、Java、Python、R开发语言
• 集成批处理、流处理、交互式计算、机器学习算法、图计算
➢ 运行模式多样
• Local、Standalone、Yarn、Mesos
Spark****核心概念-RDD
➢ RDD:Resilient Distributed Datasets弹性分布式数据集
• Spark基于RDD进行计算
• 分布在集群中的
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。