Spark的前世今生_spark诞生的起源

作者：我家小花儿 | 2024-04-09 01:33:16

踩

spark诞生的起源

Spark****产生背景

➢ 计算处理框架种类多，选型复杂

批处理：MapReduce、Hive、Pig

流式计算：Storm

交互式计算：Impala、Presto

➢ 希望能够简化技术选型，在一个统一的框架下，能够完成批处理、流式计算、交互式计算、机器学习算法等

Spark****简介

➢ 由加州大学伯克利分校的AMP实验室开源

➢ 大规模分布式通用计算引擎

➢ 具有高吞吐、低延时、通用易扩展、高容错等特点

➢ 使用Scala语言开发，提供了丰富的开发API，支持Scala、Java、Python、R开发语言

➢ Spark提供多种运行模式

Spark****特点

➢ 计算高效

• 使用内存计算引擎，提供Cache缓存机制支持迭代计算或多次数据共享

，减少数据读取的IO开销

• DAG引擎，减少多次计算之间中间结果写到HDFS的开销，使用多线程池模型来减少task启动开销，shuffle过程中避免不必要的sort操作以及减少磁盘IO操作

➢ 通用易用

• 提供了丰富的开发API，支持Scala、Java、Python、R开发语言

• 集成批处理、流处理、交互式计算、机器学习算法、图计算

➢ 运行模式多样

• Local、Standalone、Yarn、Mesos

Spark****核心概念-RDD

➢ RDD：Resilient Distributed Datasets弹性分布式数据集

• Spark基于RDD进行计算

• 分布在集群中的

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家小花儿/article/detail/389437