当前位置: article > 正文

spark-submit 命令使用详解

作者：酷酷是懒虫 | 2024-07-30 23:13:27

踩

spark-submit

spark-submit 命令使用详解

spark-submit 用户打包 Spark 应用程序并部署到 Spark 支持的集群管理气上，命令语法如下：

spark-submit [options] <python file> [app arguments]
1

app arguments 是传递给应用程序的参数，常用的命令行参数如下所示：

–master: 设置主节点 URL 的参数。支持：
- local：本地机器。
- spark://host:port：远程 Spark 单机集群。
- yarn：yarn 集群
–deploy-mode：允许选择是否在本地（使用 client 选项）启动 Spark 驱动程序，或者在集群内（使用 cluster 选项）的其中一台工作机器上启动。默认值是 client。
–name：应用程序名称，也可在程序内设置。
–py-files：.py, .egg 或者 .zip 文件的逗号分隔列表，包括 Python 应用程序。这些文件将分发给每个执行节点。
–files：逗号分隔的文件列表，这些文件将分发给每个执行节点。
–conf：动态地改变应用程序的配置。
–driver-memory：指定应用程序在驱动节点上分配多少内存的参数，类似与 10000M， 2G。默认值是 1024M。
–executor-memory：指定每个执行节点上为应用程序分配的内存，默认 1G。
–num-executors：指定执行器节点数。
–help：展示帮助信息和退出。

以下均是在 yarn 集群提交的任务。

1、默认设置: 会将所有日志和系统输出结果输出到 spark-submit 的 client 上

spark-submit --master yarn code1.py
1

code1.py

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('Test_Code1').enableHiveSupport().getOrCreate()

spark.sql("select count(*) from default.test_table").show()
1
2
3
4

2、设置 Executor 的日志级别，Executor 执行的细节（WARN 以下级别的日志）不会输出到 client 中

spark-submit --master yarn code2.py
1

code2.py

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('Test_Code1'1

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/酷酷是懒虫/article/detail/905790