当前位置:   article > 正文

【Hive】 HDFS小文件优化三重奏_hdfs hive impala 小文件优化

hdfs hive impala 小文件优化

       小文件指的是hdfs文件远远小于hdfs block块的大小,比如默认的block大小是128m,文件size只有几k。当这种类型的文件又很多的情况下,就会造成在spark任务处理过程中map的任务数过多(我们都知道map数量的决定因素之一是一个hdfs文件对应一个map)。一个map任务启动和初始化的时间远远大于逻辑处理的时间,就会造成很大的资源浪费。

       如果小文件从业务上无法从源头减少,那么可以参考如下几类优化方式:

1、设置JVM重用次数
      hadoop 通常默认配置是使用派生JVM来执行map和reduce任务,这时jvm的启动过程会造成相当大的资源开销。小文件对应的多个map任务也同样会造成独立JVM的启动的资源开销。由于map任务计算时间远远小于JVM启动时间,则可以考虑使用共享JVM资源。
      有两种方式:
      1.1、mapreduce-site.xml中配置
      mapreduce.job.jvm.numtasks = 10
      1.2、执行HQL语句前设置
      set mapred.job.reuse.jvm.num.tasks=10
      当然这种配置也有一定的弊端,比如在带有数据倾斜的任务中,reduce阶段中某个reduce任务一直在执行,其他任务已经执行完了,但是JVM进程还是要继续等待,直到整个JOB任务执行完毕。

2、减少map数

      在执行task之前预先设定map,reduce的数量,可以使本应该在多个任务中执行的数据进行合并。
      ---- 设置hive input 文件格式类型,将小文件进行合并,从而减少map数量
      set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat
      ---- 每个task处理输入文件的最大Size
      set mapred.max.split.size=536870912(默认256000000)
      ---- 每台计算节点中每个task处理输入文件的最小Size
      set mapred.min.split.size.per.node=536870912(默认1)
      ---- 每个机架中每个task处理输入文件的最小Size
​​​​​​      set mapred.min.split.size.per.rack=536870912(默认1)
      ---- 设置map 任务数量
      set mapred.map.tasks=6(默认2)
      具体值根据业务实际场景计算:goalsize = min(输入文件总Size/预置map数量,dfs blockSize)。
      按照goalSize计算文件,切分后每个map计算的Size量越平均越好。

3、使用hadoop的archive归档

      ---- 用来控制归档是否可用
      set hive.archive.enabled=true (默认false)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/728021
推荐阅读
相关标签
  

闽ICP备14008679号