赞
踩
hive外部分区表,每个分区下有200个小文件
某张表有三个分区字段(partition_brand, partition_date, partition_rssc)
则生成小文件个数:2 * 26 * 8 * 200 = 83,200
这个表还算一般,如果按照年月日进行分区的话,小文件就太多了
先查看集群动态资源配置:
再查看执行spark程序配置资源:
--driver-memory 30g \
--executor-memory 12g \
--num-executors 12 \
--executor-cores 3 \
12executor3个core =36 cores
12executor12 + 30 =174G
然而是实际运行过程
看来是集群动态分配资源,然而分配资源对生成文件数并没影响。。
最终发现默认文件生成数和表文件存储的个数有关,但是上游表存储个数不是我们下游能控制的,只能自己想办法处理小文件了
方法一:新增配置信息:
--conf spark.sql.shuffle.partitions=10 \
--conf spark.default.parallelism=10 \
执行结果ok,但是运行时间增加了10min.
方法二:repartition函数
//合并成一个文件
df.repartition(10).createOrReplaceTempView("table1")
hiveContext.sql("INSERT overwrite TABLE wd_part_test partition(partition_brand, partition_date, partition_rssc) select * from table1")
执行结果ok,同样运行时间增加了10min。
最后深入分析之后,采用distribute by方式:
INSERT overwrite TABLE asmp.wd_part_test partition(partition_brand, partition_date)
select
c.rssc_code,
c.rssc_name,
b.sst_code,
b.sst_name,
b.sst_code p1,
regexp_replace(substr(te.fkdat,1,7), '-', '') p2
from tt_part_test
distribute by p1,p2
执行结果ok,同样运行时间几乎没有增加。
注:
(1)测试采用一年的数据量大约50G(1亿条)
(2)distribute by 控制map输出结果的分发,相同字段的map输出会发到一个reduce节点去处理;sort by为每一个reducer产生一个排序文件。cluster by = distribute by + sort by,默认只能是升序。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。