当前位置:   article > 正文

spark启动参数性能优化_spark.excludeonfailure.enabled

spark.excludeonfailure.enabled

1.简版

  1. --master yarn-cluster \
  2. --jars mysql-connector-java-8.0.28.jar,sparklens-0.3.2-s_2.11.jar \
  3. --driver-class-path mysql-connector-java-8.0.28.jar \
  4. --conf spark.executor.extraClassPath=sparklens-0.3.2-s_2.11.jar \
  5. --conf spark.extraListeners=com.qubole.sparklens.QuboleJobListener \
  6. --conf spark.sparklens.reporting.disabled=true \
  7. --conf spark.sparklens.data.dir=/projects/sparklens \
  8. --conf spark.default.parallelism=1900 \
  9. --conf spark.sql.shuffle.partitions=1900 \
  10. --conf spark.dynamicAllocation.maxExecutors=250 \
  11. --conf spark.dynamicAllocation.executorIdleTimeout=120s \
  12. --conf spark.dynamicAllocation.initialExecutors=200 \
  13. --conf spark.dynamicAllocation.minExecutors=200 \
  14. --conf spark.executor.cores=3 \
  15. --conf spark.executor.memory=512m \
  16. --conf spark.executor.memoryOverhead=1g \
  17. --conf spark.blacklist.enabled=true \
  18. --conf spark.yarn.nodemanager.vmem-check-enabled=false \
  19. --conf spark.yarn.nodemanager.pmem-check-enabled=false \
  20. --conf spark.speculation.quantile=0.5 \
  21. --conf spark.speculation.multiplier=1.4 \
  22. --conf spark.yarn.dist.files=hdfs://projects/log4j2.properties#log4j2.propertie \
  23. --conf "spark.driver.extraJavaOptions=-Dlog4j.configuration=file:log4j2.propertie" \
  24. --conf "spark.executor.extraJavaOptions=-Dlog4j.configuration=file:log4j2.propertie" \

2.详细注释版(spark 2.4)

  1. # 给下面的 Spark 启动配置加上注释
  2. --master yarn-cluster \ # 设置 Spark 的运行模式为 yarn-cluster,即在 YARN 集群中运行应用程序
  3. --jars mysql-connector-java-8.0.28.jar,sparklens-0.3.2-s_2.11.jar \ # 添加外部的 JAR 包 mysql-connector-java-8.0.28.jar 和 sparklens-0.3.2-s_2.11.jar
  4. --driver-class-path mysql-connector-java-8.0.28.jar \ # 设置 Driver 运行时的 classpath,将 mysql-connector-java-8.0.28.jar 添加到 classpath 中
  5. --conf spark.executor.extraClassPath=sparklens-0.3.2-s_2.11.jar \ # 设置 Executor 运行时的 classpath,将 sparklens-0.3.2-s_2.11.jar 添加到 classpath 中
  6. --conf spark.extraListeners=com.qubole.sparklens.QuboleJobListener \ # 启用 QuboleJobListener,用于监控 Spark 作业的性能指标
  7. --conf spark.sparklens.reporting.disabled=true \ # 禁用 SparkLens 的报告功能,避免浪费资源
  8. --conf spark.sparklens.data.dir=/projects/sparklens \ # 指定 SparkLens 存储数据的目录
  9. --conf spark.default.parallelism=1900 \ # 设置默认并行度,即每个任务的分区数,默认值为核数 * 2
  10. --conf spark.sql.shuffle.partitions=1900 \ # 设置 Shuffle 操作的分区数,默认值为核数 * 200
  11. --conf spark.dynamicAllocation.maxExecutors=250 \ # 设置动态分配的最大 Executor 数量
  12. --conf spark.dynamicAllocation.executorIdleTimeout=120s \ # 设置 Executor 空闲时间,超过该时间后将被回收
  13. --conf spark.dynamicAllocation.initialExecutors=200 \ # 设置动态分配的初始 Executor 数量
  14. --conf spark.dynamicAllocation.minExecutors=200 \ # 设置动态分配的最小 Executor 数量
  15. --conf spark.executor.cores=3 \ # 设置每个 Executor 使用的 CPU 核数
  16. --conf spark.executor.memory=512m \ # 设置每个 Executor 的内存大小
  17. --conf spark.executor.memoryOverhead=1g \ # 设置 Executor 的内存 overhead
  18. --conf spark.blacklist.enabled=true \ # 启用 Executor 黑名单功能,避免因 Executor 运行异常导致的作业失败
  19. --conf spark.yarn.nodemanager.vmem-check-enabled=false \ # 禁用虚拟内存检查,避免因虚拟内存检查导致的作业失败
  20. --conf spark.yarn.nodemanager.pmem-check-enabled=false \ # 禁用物理内存检查,避免因物理内存检查导致的作业失败
  21. --conf spark.speculation.quantile=0.5 \ # 设置任务推测执行的百分比
  22. --conf spark.speculation.multiplier=1.4 \ # 设置任务推测执行的倍数
  23. --conf spark.yarn.dist.files=hdfs://projects/log4j2.properties#log4j2.propertie \ # 将日志配置文件log4j2.properties添加到Spark应用程序的classpath
  24. --conf "spark.driver.extraJavaOptions=-Dlog4j.configuration=file:log4j2.propertie" \ # 配置Spark驱动程序(Driver)的日志级别等参数,将log4j2.properties文件作为驱动程序(Driver)的日志配置文件
  25. --conf "spark.executor.extraJavaOptions=-Dlog4j.configuration=file:log4j2.propertie" \ # 配置Spark Executor的日志级别等参数,将log4j2.properties文件作为Executor的日志配置文件

3.详细注释版(spark 3.X)

  1. --master yarn-cluster \
  2. --jars mysql-connector-java-8.0.28.jar \
  3. --driver-class-path mysql-connector-java-8.0.28.jar \
  4. --conf spark.default.parallelism=5000 \
  5. --conf spark.sql.shuffle.partitions=5000 \
  6. --conf spark.dynamicAllocation.maxExecutors=1000 \
  7. --conf spark.dynamicAllocation.executorIdleTimeout=120s \
  8. --conf spark.dynamicAllocation.initialExecutors=100 \
  9. --conf spark.dynamicAllocation.minExecutors=100 \
  10. --conf spark.executor.cores=1 \
  11. --conf spark.executor.memory=10g \
  12. --conf spark.executor.memoryOverhead=1g \
  13. --conf spark.shuffle.memoryFraction=0.2 \
  14. --conf spark.excludeOnFailure.enabled=true \
  15. --conf spark.yarn.nodemanager.vmem-check-enabled=false \
  16. --conf spark.yarn.nodemanager.pmem-check-enabled=false \
  17. --conf spark.speculation.quantile=0.5 \
  18. --conf spark.speculation.multiplier=1.4 \
  19. --conf spark.rss.enabled=true \
  20. --conf spark.shuffle.io.clientThreads=16 \
  21. --conf spark.yarn.dist.files=hdfs://R2/a.conf#aa.conf,hdfs://R2/a/log4j.properties#log4j-first.properties \
  22. --conf "spark.driver.extraJavaOptions=-Dlog4j.configuration=file:log4j-first.properties" \
  23. --conf "spark.executor.extraJavaOptions=-Dlog4j.configuration=file:log4j-first.properties" \

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/653188
推荐阅读
相关标签
  

闽ICP备14008679号