赞
踩
-》1. hive-sql 方式, 小文件产生和最后的map任务数量有关系
原来是7W多个
查看hive表对应hdfs文件的数量,可以看这里
https://mp.csdn.net/mp_blog/creation/editor/new/129703080
- SET hive.merge.tezfiles=true; --开启合并
- SET hive.merge.mapfiles = true; --在map only任务结束时合并小文件
- SET hive.merge.mapredfiles = true; --为true时在mapreduce任务结束时合并小文件
- SET hive.merge.size.per.task = 256000000; --合并文件大小
- SET hive.merge.smallfiles.avgsize = 160000000; --文件合并标准(低于16000000kb进行合并)
-
- INSERT overwrite TABLE ods.ods_s4_matdoc
- SELECT *
- FROM ods.ods_s4_matdoc;
执行完后,查询对应hdfs文件数的变化,变成了400多
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。