当前位置:   article > 正文

spark学习---Spark on YARN环境搭建_如何将spark注册到yarn上执行

如何将spark注册到yarn上执行

Spark on YARN本质

Master角色由YARN的ResourceManager担任.

worker角色由YARN的NodeManager担任.

Driver角色运行在YARN容器内或提交任务的客户端进程中

真正干活的Executor运行在YARN提供的容器内

 Spark On Yarn需要:

1.需要Yarn集群
⒉.需要Spark客户端工具比如spark-submit,可以将Spark程序提交到YARN中
3.需要被提交的代码程序:,或我们后续自己开发的Spark任务
bin/pyspark --master yarn

client模式具体流程步骤如下:


1) 、Driver在任务提交的本地机器运行,Driver启动后会和ResourceManager通讯申请启动ApplicationMaster;

2)、随后ResourceManager分配Container,在合适的NodeManager上启动ApplicationMaster,此时的
ApplicationMaster的功能相当于一个ExecutorLaucher,只负责向ResourceManager申请Executor内存;
3) 、ResourceManager接到ApplicationMaster的资源申请后会分配Container,然后ApplicationMaster在资源分配指定的NodeManager上启动Executor进程;
4) 、Executor进程启动后会向Driver反向注册,Executor全部注册完成后Driver开始执行main函数;
5)、之后执行到Action算子时,触发一个Job,并根据宽依赖开始划分Stage,每个Stage生成对应的TaskSet,之后将Task分发到各个Executor上执行。
 

 切换虚拟环境

conda activate pyspark

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/838882
推荐阅读
相关标签
  

闽ICP备14008679号