赞
踩
Master角色由YARN的ResourceManager担任.
worker角色由YARN的NodeManager担任.
Driver角色运行在YARN容器内或提交任务的客户端进程中
真正干活的Executor运行在YARN提供的容器内
1.需要Yarn集群
⒉.需要Spark客户端工具比如spark-submit,可以将Spark程序提交到YARN中
3.需要被提交的代码程序:,或我们后续自己开发的Spark任务
bin/pyspark --master yarn
1) 、Driver在任务提交的本地机器运行,Driver启动后会和ResourceManager通讯申请启动ApplicationMaster;2)、随后ResourceManager分配Container,在合适的NodeManager上启动ApplicationMaster,此时的
ApplicationMaster的功能相当于一个ExecutorLaucher,只负责向ResourceManager申请Executor内存;
3) 、ResourceManager接到ApplicationMaster的资源申请后会分配Container,然后ApplicationMaster在资源分配指定的NodeManager上启动Executor进程;
4) 、Executor进程启动后会向Driver反向注册,Executor全部注册完成后Driver开始执行main函数;
5)、之后执行到Action算子时,触发一个Job,并根据宽依赖开始划分Stage,每个Stage生成对应的TaskSet,之后将Task分发到各个Executor上执行。
切换虚拟环境
conda activate pyspark
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。