当前位置:   article > 正文

偏好配置化spark参数设置_spark 连接hive重试次数

spark 连接hive重试次数

背景:偏好种类过多,每次创建、完善画像hql工作量巨大。为了解决此问题,将hql配置化生成,并且使用spark运行。

由于不同的偏好量不同,脚本动态分配资源,直接上代码!

脚本:sh /....../prefer_res_normal.sh 参数1 参数2 21840 (21840约等于偏好M数,必须为840的倍数)

  1. #!/bin/bash
  2. partitions=`expr ${3} / 140`
  3. numexe=`expr ${3} / 840`
  4. --master yarn \
  5. --driver-memory 4G \
  6. --driver-cores 1 \
  7. --num-executors ${numexe} \
  8. --executor-memory 12G \
  9. --executor-cores 2 \
  10. --conf spark.default.parallelism=${partitions} \
  11. --conf spark.sql.shuffle.partitions=${partitions} \
  12. --conf spark.storage.memoryFraction=0.5 \
  13. --conf spark.shuffle.memoryFraction=0.3 \
  14. --conf spark.shuffle.io.maxRetries=30 \
  15. --conf spark.shuffle.io.retryWait=30s \
  16. --conf spark.network.timeout=300 \
  17. --conf spark.reducer.maxSizeInFlight=96m \
  18. --conf spark.shuffle.sort.bypassMergeThreshold=1000 \
  19. --conf spark.executor.logs.rolling.maxRetainedFiles=5 \
  20. 改了三个hive参数
  21. hive.me
声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号