当前位置:   article > 正文

Spark DAG和Stage_spark dag stage

spark dag stage

一、什么是DAG

在图论中,如果一个有向无法从任意定点触发经过若干条边回到该点,则这个图是一个有向五环图(DAG图)。而在Spark中,由于计算过程很多时候会有先后顺序,受制于某些任务必须比另一些任务较早执行的限制,必须对任务进行排队,形成一个队列的任务集合,这个队列的任务集合就是DAG图,每一个定点就是一个任务,每一条边代表一种限制约束(Spark中的依赖关系)

二、DAG如何划分Stage

  • 为什么要划分Stage? --并行计算

    一个复杂的业务逻辑如果有shuffle,那么就意为着前面阶段产生结果后,才能执行下一个阶段,即下一个阶段的计算要依赖上一个阶段的数据。那么我们按照shuffle进行划分(也就是按照宽依赖进行划分),就可以将一个DAG划分成多个Staghe阶段,在同一个Stage中,会有多个算子操作,可以形成一个pipeline流水线,流水线内的多个平行的分区可以并行执行

    Pipeline:HDFS----textRDD----splitRDD----tupleRDD

  • 如何划分DAG的stage

    • 对于窄依赖,partition的转换处理在stage中完成计算,不划分(将窄依赖尽量放在同一个stage中,可以实现流水线计算)
    • 对于宽依赖,由于有shuffle的存在,只能在父RDD处理完成后,才能开始接下来的计算,也就是说需要划分stage

三、总结

Spark会根据shuffle/宽依赖使用回溯算法来对DAG进行Stage划分,从后往前,遇到宽依赖就断开,遇到窄依赖就把当前的RDD加入到当前的stage阶段中

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/747262
推荐阅读
相关标签
  

闽ICP备14008679号