赞
踩
目录
2.开启orc布隆过滤器(布隆过滤器:没有一定没有,有可能没有,还有查数据)
hive 性能优化手段可以从三个方面入手
hive.optimize.pdd=true(默认开启)
为了index有效利用,向表中加载数据时,必须对需要使用索引字段排序
矢量化查询:按照每批1024行读取数据,并且一次性对整个记录 整合应用操作,提升过滤,联合,聚合等操作性能。(类似矢量图,通过算法得到,放大缩小不失真。)
hadoop 会为每个task启动一个jvm运行,jvm启动内存开销大
默认已经开启:hive.auto.convert.join=true
1.clustered by colName
2.clustered by colName sorted by (colName)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。