赞
踩
在图论中,如果一个有向无法从任意定点触发经过若干条边回到该点,则这个图是一个有向五环图(DAG图)。而在Spark中,由于计算过程很多时候会有先后顺序,受制于某些任务必须比另一些任务较早执行的限制,必须对任务进行排队,形成一个队列的任务集合,这个队列的任务集合就是DAG图,每一个定点就是一个任务,每一条边代表一种限制约束(Spark中的依赖关系)
为什么要划分Stage? --并行计算
一个复杂的业务逻辑如果有shuffle,那么就意为着前面阶段产生结果后,才能执行下一个阶段,即下一个阶段的计算要依赖上一个阶段的数据。那么我们按照shuffle进行划分(也就是按照宽依赖进行划分),就可以将一个DAG划分成多个Staghe阶段,在同一个Stage中,会有多个算子操作,可以形成一个pipeline流水线,流水线内的多个平行的分区可以并行执行
Pipeline:HDFS----textRDD----splitRDD----tupleRDD
如何划分DAG的stage
Spark会根据shuffle/宽依赖使用回溯算法来对DAG进行Stage划分,从后往前,遇到宽依赖就断开,遇到窄依赖就把当前的RDD加入到当前的stage阶段中
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。