大数据之Spark（五）：DAGScheduler 的任务划分_spark dag任务分配原则

作者：知新_RL | 2024-06-15 07:45:42

踩

spark dag任务分配原则

Spark是如何根据DAG生成计算任务呢？

根据依赖关系将DAG划分为不同的阶段（Stage）。

对于窄依赖，由于分区依赖关系的确定性，分区的转换处理可以在同一个线程里完成，窄依赖被划分到同一个执行阶段；对于宽依赖，由于Shuffle的存在，只能在父RDD Shuffle处理完成后，才能开始接下来的计算。因此宽依赖就是阶段划分的依据，具体划分规则：从后往前，遇到宽依赖切割为新的Stage。每个Stage由一组并行的Task组成。如下图所示。

1、阶段划分从RDD G开始中，G依赖于B和F，先处理B还是F是随机的。
2、假设先处理B，由于G和B是窄依赖，可以划分在一个Stage（Stage3）中。
3、再处理F，G和F是宽依赖，所以F和G划分到不同的Stage中，F在Stage2，G在Stage3。
4、然后处理B的依赖A，发现是宽依赖，所以将A再划分到Stage1中。再看F的依赖D、E，属于窄依赖，合并到St

本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】