当前位置:   article > 正文

Spark Sql 处理groupby 的数据倾斜问题_group by 数据倾斜 给id加前缀

group by 数据倾斜 给id加前缀

写sql处理使用groupby 产生的数据倾斜问题:

  1. import java.util.Random
  2. import org.apache.spark.sql.SparkSession
  3. object TestUDF {
  4. def main(args: Array[String]): Unit = {
  5. val spark =
  6. SparkSession.builder()
  7. .appName("TestUDF")
  8. .enableHiveSupport()
  9. .getOrCreate()
  10. spark.udf.register("random_prefix", (value: Int, num: Int) => randomPrefixUDF(value, num))
  11. spark.udf.register("remove_random_prefix", (value: String) => removeRandomPrefixUDF(value))
  12. // 加随机前缀
  13. val sql1 =
  14. s"""
  15. |select
  16. | random_prefix(name, 6) product,
  17. | id
  18. |from
  19. | ggg.test
  20. """.stripMargin
  21. // 分组求和
  22. val sql2 =
  23. s"""
  24. |select
  25. | product,
  26. | sum(id) click
  27. |from
  28. | (
  29. | select
  30. | random_prefix(name, 6) product,
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/975995
推荐阅读
相关标签
  

闽ICP备14008679号