赞
踩
小文件指的是hdfs文件远远小于hdfs block块的大小,比如默认的block大小是128m,文件size只有几k。当这种类型的文件又很多的情况下,就会造成在spark任务处理过程中map的任务数过多(我们都知道map数量的决定因素之一是一个hdfs文件对应一个map)。一个map任务启动和初始化的时间远远大于逻辑处理的时间,就会造成很大的资源浪费。
如果小文件从业务上无法从源头减少,那么可以参考如下几类优化方式:
1、设置JVM重用次数
hadoop 通常默认配置是使用派生JVM来执行map和reduce任务,这时jvm的启动过程会造成相当大的资源开销。小文件对应的多个map任务也同样会造成独立JVM的启动的资源开销。由于map任务计算时间远远小于JVM启动时间,则可以考虑使用共享JVM资源。
有两种方式:
1.1、mapreduce-site.xml中配置
mapreduce.job.jvm.numtasks = 10
1.2、执行HQL语句前设置
set mapred.job.reuse.jvm.num.tasks=10
当然这种配置也有一定的弊端,比如在带有数据倾斜的任务中,reduce阶段中某个reduce任务一直在执行,其他任务已经执行完了,但是JVM进程还是要继续等待,直到整个JOB任务执行完毕。
2、减少map数
在执行task之前预先设定map,reduce的数量,可以使本应该在多个任务中执行的数据进行合并。
---- 设置hive input 文件格式类型,将小文件进行合并,从而减少map数量
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat
---- 每个task处理输入文件的最大Size
set mapred.max.split.size=536870912(默认256000000)
---- 每台计算节点中每个task处理输入文件的最小Size
set mapred.min.split.size.per.node=536870912(默认1)
---- 每个机架中每个task处理输入文件的最小Size
set mapred.min.split.size.per.rack=536870912(默认1)
---- 设置map 任务数量
set mapred.map.tasks=6(默认2)
具体值根据业务实际场景计算:goalsize = min(输入文件总Size/预置map数量,dfs blockSize)。
按照goalSize计算文件,切分后每个map计算的Size量越平均越好。
3、使用hadoop的archive归档
---- 用来控制归档是否可用
set hive.archive.enabled=true (默认false)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。