当前位置:   article > 正文

Hive优化之表设计层面_hive 表怎么设计比较好

hive 表怎么设计比较好

最近学习一下Hive优化的方法,记录一下

Hive优化表设计层面:
1:利用分区表优化
就是在建表的时候建立分区,这样能够提高查询速度,如果筛选条件里面有分区字段的话,那么Hive只需要遍历对用分区目录下的文件即可,不需要遍历全局数据,使得处理的数据量大大减少。
2:利用桶表优化
指定桶的个数后,存储数据时,根据某一个字段进行哈希后,确定存储在哪个桶里,跟分区表类似也是使得筛选时不用全局遍历所有的数据,只需要遍历所在桶就可以了。
3:选择合适的文件存储格式
TextFile
默认格式,如果建表时不指定默认为此格式。
存储方式:行存储。
ORC
存储方式:数据按行分块,每块按照列存储
Hive 提供的新格式,属于 RCFile 的升级版,性能有大幅度提升,而且数据可以压缩存储,压缩快,快速列存取
4:选择合适的压缩方式
压缩方式有好多种,根据情况而定吧,gzip,lzo,snappy,bzip2四种方式
从网上找了张图片对比,大家可以看一下
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/在线问答5/article/detail/916677
推荐阅读
相关标签
  

闽ICP备14008679号