当前位置:   article > 正文

spark join 速度优化_spark dataframe 连接速度

spark dataframe 连接速度

https://stackoverflow.com/questions/32435263/dataframe-join-optimization-broadcast-hash-join

import org.apache.spark.sql.functions.broadcast
// hiveContext.sql("SET spark.sql.autoBroadcastJoinThreshold = -1") // 不要加这句,这句其实是阻止broadcast
smallDataframe = smallDataframe.cache()
largeDataframe.join(broadcast(smallDataframe), ...)
  • 1
  • 2
  • 3
  • 4
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/725021?site
推荐阅读
相关标签
  

闽ICP备14008679号