最详细的整个Spark运行时的内核架构以及架构思考_spark 最后阶段 sto

作者：秋刀鱼在做梦 | 2024-06-30 10:40:44

踩

spark 最后阶段 sto

一： Spark内核架构

1，Drive是运行程序的时候有main方法，并且会创建SparkContext对象，是程序运行调度的中心，向Master注册程序，然后Master分配资源。

应用程序： Application = Driver（驱动程序） + Executor（执行程序）

Driver部分的代码：主要是SparkContext +SparkConf

这里写图片描述
Application 的main 方法、创建sparkcontext、这样环境对象 sparkcontext 创建时要有程序的高层调度器DAGScheduler 分为几个阶段、底层调度器TasKScheduler 一个阶段的任务处理、SchedulerBackend向Master 注册程序、分资源、根据 job 许多RDD 从后向前倒推如宽依赖划分不同的stage 然后提交给底层调度器TaskScheduler 然后根据数据的本地性发送到 Excutor 去执行，如出问题向 Drive 部分汇报完成关闭创建对象

这里写图片描述

Executor 是运行在Worker所在节点上，为当前应用程序而开启的一个JVM进程里边的一个对象，这个对象负责具体Task的运行。这个JVM进程里面是通过线程池并发每个线程运行一个Task任务，完成后进行线程复用。

默认情况在一个节点上只为当前程序开启一个 Excutor。
Cluster Manager（集群中获取资源的Web服务）
spark Aplication 运行不依赖 Cluster Manager
可插拔的资源方式粗粒度的
Worker 操作代码的节点，不运行程序的代码，管理当前节点的资源（cup，Memory），并接收 Master指令来分配具体的计算资源的Excutor（在新的进程中分配）
并通过ExcutorRunner 来具体启动一个新进程，进程里面有Executor。

在此可以做一个比喻：Worker是工头，Cluster Manager：是项目经理
Master：是Boss

worker 不会汇报当前信息（发心跳）给 Master
故障时候发的心跳只有 workid
Master 分配时就知道资源

Job 包含一系列的task 并行计算一般由action 触发 action不会产生RDD

action前面的是RDD ,前面的RDD是Transformation级别的是lazy的执行方式，他是从后往前推，如果后面的RDD与前面的RDD是回溯的话是窄依赖（如果父RDD的一个Partition被一个子RDD的Partion所使用的话就是窄依赖，否则的话就是宽依赖，如果子RDD中的Partition对父RDD的Partition依赖的数量不会随着数据量规模的改变而改变的话就是窄依赖，否则的话就是宽依赖）的话就在内存中进行迭代。宽依赖导致stage的划分。
这里写图片描述

Spark快绝不是因为基于内存，最基本的是他的调度，然后是他的容错

如果宽依赖
这里写图片描述
依赖构成了 DAG ，DAG导致宽依赖
stage 是内存迭代当然也可以磁盘的迭代，如有100W 个数据分片就有 100W 个task任务
stage内部：计算逻辑一样只是算的数据不一样而已

任务本身计算数据分片，一个pation是否精的等于一个 block大小？
默认情况下是一个数据分片 128MB 最后一个记录跨2个 block

这里写图片描述

怎么分配资源:通过spark-env.sh和spark-defaults.sh

Scheduling:

这里写图片描述

Dependency Types :
这里写图片描述

Event Flow :
这里写图片描述

本博客内容来自于：　简介：王家林：DT大数据梦工厂创始人和首席专家. 联系邮箱18610086859@126.com 电话：18610086859 QQ:1740415547 微信号：18610086859

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/772397