赞
踩
底层还是mr的join优化。map join适合小表join大表或者小表join小表。
- #是否开启自动转为mapjoin 在满足条件的情况下 默认true
- hive.auto.convert.join=true
-
- Hive老版本
- #如果参与的一个表大小满足条件 转换为map join
- hive.mapjoin.smalltable.filesize=25000000
-
-
- Hive2.0之后版本
- #是否启用基于输入文件的大小,将reduce join转化为Map join的优化机制。假设参与join的表(或分区)有N个,如果打开这个参数,并且有N-1个表(或分区)的大小总和小于hive.auto.convert.join.noconditionaltask.size参数指定的值,那么会直接将join转为Map join。
- hive.auto.convert.join.noconditionaltask=true
- hive.auto.convert.join.noconditionaltask.size=512000000
reduce join适合于大表join大表。
bucket join适合于大表join大表。
方式一:Bucket map join
- 语法: clustered by colName(参与join的字段)
- 参数: set hive.optimize.bucketmapjoin = true
- 要求: 分桶字段 = Join字段 ,分桶的个数相等或者成倍数,必须是在map join中
方式二:sort merge bucket join
- 基于有序的数据Join
- 语法:clustered by colName sorted by (colName)
- 参数
- set hive.optimize.bucketmapjoin = true;
- set hive.auto.convert.sortmerge.join=true;
- set hive.optimize.bucketmapjoin.sortedmerge = true;
- set hive.auto.convert.sortmerge.join.noconditionaltask=true;
-
- 要求: 分桶字段 = Join字段 = 排序字段,分桶的个数相等或者成倍数
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。