Spark Sql 处理groupby 的数据倾斜问题_group by 数据倾斜给id加前缀

作者：IT小白 | 2024-08-13 18:19:00

踩

group by 数据倾斜给id加前缀

写sql处理使用groupby 产生的数据倾斜问题：


import java.util.Random
 
import org.apache.spark.sql.SparkSession
 
object TestUDF {
  def main(args: Array[String]): Unit = {
    val spark =
      SparkSession.builder()
        .appName("TestUDF")
        .enableHiveSupport()
        .getOrCreate()
 
 
    spark.udf.register("random_prefix", (value: Int, num: Int) => randomPrefixUDF(value, num))
    spark.udf.register("remove_random_prefix", (value: String) => removeRandomPrefixUDF(value))
 
    // 加随机前缀
    val sql1 =
      s"""
         |select
         |  random_prefix(name, 6) product,
         |  id
         |from
         |  ggg.test
       """.stripMargin
 
    // 分组求和
    val sql2 =
      s"""
         |select
         |  product,
         |  sum(id) click
         |from
         |  (
         |    select
         |      random_prefix(name, 6) product,

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/IT小白/article/detail/975995

Spark Sql 处理groupby 的数据倾斜问题_group by 数据倾斜 给id加前缀

Spark Sql 处理groupby 的数据倾斜问题_group by 数据倾斜给id加前缀