集群小文件太多问题（spark-sql优化）_conf spark.sql.shuffle.partitions=10。

作者：不正经 | 2024-04-23 15:27:22

踩

conf spark.sql.shuffle.partitions=10。

hive外部分区表，每个分区下有200个小文件
在这里插入图片描述
某张表有三个分区字段（partition_brand, partition_date, partition_rssc）
则生成小文件个数：2 * 26 * 8 * 200 = 83,200
这个表还算一般，如果按照年月日进行分区的话，小文件就太多了
先查看集群动态资源配置：

再查看执行spark程序配置资源：

--driver-memory 30g \
--executor-memory 12g \
--num-executors 12 \
--executor-cores 3 \
1
2
3
4

12executor3个core =36 cores
12executor12 + 30 =174G

然而是实际运行过程
在这里插入图片描述
看来是集群动态分配资源，然而分配资源对生成文件数并没影响。。
最终发现默认文件生成数和表文件存储的个数有关，但是上游表存储个数不是我们下游能控制的，只能自己想办法处理小文件了

方法一：新增配置信息：

--conf spark.sql.shuffle.partitions=10 \
--conf spark.default.parallelism=10 \
1
2

在这里插入图片描述
执行结果ok,但是运行时间增加了10min.

方法二：repartition函数

   //合并成一个文件
   df.repartition(10).createOrReplaceTempView("table1")
   hiveContext.sql("INSERT overwrite TABLE wd_part_test partition(partition_brand, partition_date, partition_rssc) select * from table1")
1
2
3

执行结果ok,同样运行时间增加了10min。

最后深入分析之后，采用distribute by方式：

INSERT overwrite TABLE asmp.wd_part_test partition(partition_brand, partition_date)
select
c.rssc_code,
c.rssc_name,
b.sst_code,
b.sst_name,
b.sst_code p1,
regexp_replace(substr(te.fkdat,1,7), '-', '') p2
from tt_part_test
distribute by p1,p2
1
2
3
4
5
6
7
8
9
10

执行结果ok,同样运行时间几乎没有增加。

注：
(1)测试采用一年的数据量大约50G（1亿条）
(2)distribute by 控制map输出结果的分发,相同字段的map输出会发到一个reduce节点去处理；sort by为每一个reducer产生一个排序文件。cluster by = distribute by + sort by，默认只能是升序。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/不正经/article/detail/474615