当前位置:   article > 正文

spark-submit 提交spark程序示例_头歌根据提示,在右侧编辑器补充代,将程序提交到spark上执行。spark-submit提交

头歌根据提示,在右侧编辑器补充代,将程序提交到spark上执行。spark-submit提交

  1. spark-submit \
  2. --master yarn \
  3. --deploy-mode client \
  4. --conf spark.driver.maxResultSize=8g
  5. --conf spark.driver.memory=8g \
  6. --conf spark.executor.memory=16g \
  7. --conf spark.debug.maxToStringFields=100 \
  8. --conf "spark.yarn.dist.archives=hdfs://user/4885/Python-3.6.8.zip#python_env" \
  9. --conf "spark.pyspark.python=python_env/Python-3.6.8/bin/python3" \
  10. --conf "spark.pyspark.driver.python=/user/4885/Python-3.6.8/bin/python3" \
  11. --queue root.default first_pyspark.py

1)使用client模式 需要保证driver和executor上的python版本一致
2)若executor上的python不满足要求,可通过如下参数上传打包好的python到executor上

配置方式1
Python-3.6.8.zip 在本地文件系统

# 上传python包到executor
--archives /user/4885/Python-3.6.8.zip

# 指定executor上python路径
--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./python_env/Python-3.6.8/bin/python3
--conf spark.pyspark.python=./python_env/Python-3.6.8/bin/python3

# 指定driver上python路径
--conf spark.pyspark.driver.python=/user/4885/Python-3.6.8/bin/python3

配置方式2
把python包 Python-3.6.8.zip 上传至hdfs,用 spark.yarn.dist.archives 代替 --archives

--conf spark.yarn.dist.archives=hdfs:///user/4885/Python-3.6.8.zip#python_env
--conf spark.pyspark.python=./python_env/Python-3.6.8/bin/python3
--conf spark.pyspark.driver.python=/user/4885/Python-3.6.8/bin/python3


 

spark-submit --help

主要参数

  1. --master  设置集群的URL,任务提交到何处执行。
  2. local   提交到本地服务器执行,分配单个线程
  3. local[k]   提交到本地服务器执行,分配k个线程
  4. spark://host:port   提交到standalone模式部署的spark集群中,并指定主节点的IP与端口
  5. yarn   提交到yarn模式部署的hadoop集群中
  6. mesos://host:port   提交到mesos模式部署的集群中,并指定主节点的IP与端口
  7. --deploy-mode 
  8. client  默认的方式,在客户端上启动driver,这样逻辑运算在client上执行,任务执行在集群上。
  9. cluster  逻辑运算与任务执行均在集群上,该模式暂不支持mesos集群或python应用程序。
  10. --class CLASS_NAME
  11. 指定应用程序的类入口,即主类。仅针对Java和Scala程序,不作用于python程序。
  12. --name NAME  应用程序的名称,用于区分不同的程序
  13. --jars JARS
  14. 用逗号隔开的driver本地jar包列表以及executor类路径,将程序代码及依赖资源打包成jar包。
  15. --packages  包含在driver和executor的classpath中的jar包
  16. --exclude-packages  为了避免冲突,指定参数从--packages 中排除的jars包
  17. --py-files  PY_FILES
  18. 逗号隔开的.zip .egg 和 .py文件,这些文件会放置在PYTHONPATH下,该参数仅针对python应用程序。
  19. --conf prop=value   指定spark配置属性的值
  20. --properties-file
  21. 指定需要额外加载的配置文件,用逗号分隔,如果不指定,则默认为 conf/spark-defaults.conf
  22. --driver-memory   driver程序使用内存大小,默认为1G
  23. --driver-memory 6g
  24. --driver-cores 4
  25. --driver-java-options   传递给driver的额外选项
  26. --driver-library-path   传递给driver的额外的库路径
  27. --driver-class-path   传递给driver的额外的类路径,用--jars 添加的jar包会自动包含在类路径里
  28. --executor-memory   每个executor的内存,默认为1G
  29. --executor-memory 12g
  30. --executor-cores 15
  31. --num-executors 10


 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/煮酒与君饮/article/detail/888088
推荐阅读
相关标签
  

闽ICP备14008679号