图解大数据 | 大数据分析挖掘-Spark初步_spark 数据挖掘

作者：正经夜光杯 | 2024-07-30 22:28:28

踩

spark 数据挖掘

收藏ShowMeAI查看更多精彩内容

1.Spark是什么

学习或做大数据开发的同学，都听说或者使用过Spark，从这部分开始，ShowMeAI带大家一起来学习一下Spark相关的知识。

Apache Spark是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式，可针对任何规模的数据进行快速分析查询。Spark基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量的廉价硬件之上，形成集群。

大数据分析挖掘框架; Spark初步; Spark是什么; Spark; 7-1

Spark提供使用Java、Scala、Python 和 R 语言的开发 API，支持跨多个工作负载重用代码—批处理、交互式查询、实时分析、机器学习和图形处理等。Apache Spark 已经成为最受欢迎的大数据分布式处理框架之一。

Apache Spark是个开源和兼容Hadoop的集群计算平台。由加州大学伯克利分校的AMPLabs开发，作为Berkeley Data Analytics Stack（BDAS）的一部分，当下由大数据公司Databricks保驾护航，更是Apache旗下的顶级项目。

大数据分析挖掘框架; Spark初步; Spark的特点; Apache Spark堆栈中的不同组件; 7-2

大数据分析挖掘框架; Spark初步; Spark的特点; Apache Spark优势; 7-3

更高的性能：因为数据被加载到集群主机的分布式内存中。数据可以被快速的转换迭代，并缓存用以后续的频繁访问需求。在数据全部加载到内存的情况下，Spark有时能达到比Hadoop快100倍的数据处理速度，即使内存不够存放所有数据的情况也能快Hadoop 10倍。
广泛的支持与易用性：通过建立在Java、Scala、Python、SQL（应对交互式查询）的标准API以方便各行各业使用，同时还含有大量开箱即用的机器学习库。
多场景通用性：Spark集成了一系列的库，包括SQL和DataFrame帮助你快速完成数据处理；Mllib帮助你完成机器学习任务；Spark streaming做流式计算。
多平台支持：Spark可以跑在Hadoop、Apache Mesos、Kubernetes等之上，可以从HDFS、Alluxio、Apache Cassandra、Apache Hive以及其他的上百个数据源获取数据。

大数据分析挖掘框架; Spark初步; Spark的特点; Apache Spark优势; 7-4

Spark的核心是作业和任务调度系统，它可以保障各种任务高效完整地运行。

Spark通过作业和任务调度系统，能够有效地进行调度完成各种任务，底层的巧妙设计是对任务划分DAG和容错，使得它对低层到顶层的各个模块之间的调用和处理显得游刃有余。

大数据分析挖掘框架; Spark初步; Spark作业与调度; Spark作业和任务调度系统; 7-5

概念	解释
作业（Job）	RDD中由行动操作所生成的一个或多个调度阶段。
调度阶段（Stage）	每个Job作业会因为RDD之间的依赖关系拆分成多组任务集合，称为调度阶段，简称阶段，也叫做任务集（TaskSet）。调度阶段的划分是由DAGScheduler（DAG调度器）来划分的。调度阶段有Shuffle Map Stage和Result Stage两种。
任务（Task）	分发到Executor上的工作任务，是Spark实际执行应用的最小单元。Task会对RDD的partition数据执行指定的算子操作，比如flatMap、map、reduce等算子操作，形成新RDD的partition。
DAGScheduler（DAG调度器）	DAGScheduler是面向Stage（阶段）的任务调度器，负责接收Spark应用提交的作业，根据RDD的依赖关系划分调度阶段，并提交Stage（阶段）给TaskScheduler。
TaskScheduler（任务调度器）	TaskScheduler是面向任务的调度器，它接收DAGScheduler提交过来的Stage（阶段），然后把任务分发到Worker节点运行，由Worker节点的Executor来运行该任务。

Spark的作业调度主要是指基于RDD的一系列操作构成一个作业，然后在Executor中执行。这些操作算子主要分为转换操作和行动操作，对于转换操作的计算是lazy级别的，也就是延迟执行，只有出现了行动操作才触发作业的提交。

在Spark调度中最重要的是DAGScheduler和TaskScheduler两个调度器：其中DAGScheduler负责任务的逻辑调度，将Job作业拆分成不同阶段的具有依赖关系的任务集，而TaskScheduler则负责具体任务的调度执行。

大数据分析挖掘框架; Spark初步; Spark作业与调度; 流程; 7-6

Apache Spark 中有RDD，DataFrame和Dataset三种不同数据API，发展如下：

大数据分析挖掘框架; Spark初步; RDD, DataFrame与Dataset; Spark API的历史; 7-7

RDD：

DataFrame：

与RDD相似，DataFrame也是数据的一个不可变分布式集合。
但与RDD不同的是，数据都被组织到有名字的列中，就像关系型数据库中的表一样。
设计DataFrame的目的就是要让对大型数据集的处理变得更简单，它让开发者可以为分布式的数据集指定一个模式，进行更高层次的抽象。它提供了特定领域内专用的API来处理你的分布式数据，并让更多的人可以更方便地使用Spark，而不仅限于专业的数据工程师。

Dataset：