赞
踩
最近学习一下Hive优化的方法,记录一下
Hive优化表设计层面:
1:利用分区表优化
就是在建表的时候建立分区,这样能够提高查询速度,如果筛选条件里面有分区字段的话,那么Hive只需要遍历对用分区目录下的文件即可,不需要遍历全局数据,使得处理的数据量大大减少。
2:利用桶表优化
指定桶的个数后,存储数据时,根据某一个字段进行哈希后,确定存储在哪个桶里,跟分区表类似也是使得筛选时不用全局遍历所有的数据,只需要遍历所在桶就可以了。
3:选择合适的文件存储格式
TextFile
默认格式,如果建表时不指定默认为此格式。
存储方式:行存储。
ORC
存储方式:数据按行分块,每块按照列存储
Hive 提供的新格式,属于 RCFile 的升级版,性能有大幅度提升,而且数据可以压缩存储,压缩快,快速列存取
4:选择合适的压缩方式
压缩方式有好多种,根据情况而定吧,gzip,lzo,snappy,bzip2四种方式
从网上找了张图片对比,大家可以看一下
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。