赞
踩
Hive的四种排序:
1.全局排序 order by(只有一个reduce,对所有数据进行排序) 只要使用 order by ,reduce只有一个。
2.sort by 内部有序
3.distribute by 分区字段 store by 排序字段
4.cluster by:当分区条件和排序条件相同使用cluster by .
5.group by:对检索的数据进行单纯的分组,一般和聚合函数一起使用。
6.partition by:用来辅助查询,缩小查询范围,加快数据的检索速度和对数据按照一定的规格和条件进行管理。
Hive的开窗函数:
over():over是用于数据的分区和排序,主要使用在聚合函数后边使用
row_number(): 对排序后的每行生成一个行号,且不存在重复的序号位
rank():排名函数
DENSE_RANK() 相同排序不跳序号位(允许并排次序):
LAG:落后N 个值 (默认落后1个值) 用于统计窗口内往上第n行值
LEAD:比LAG快N个值 用于统计窗口内往下第n行值
LAST_VALUE:取分组内排序后,截止到当前行,最后一个值
FIRST_VALUE:取分组内排序后,截止到当前行,第一个值
PRECEDING:往前
FOLLOWING:往后
CURRENT ROW:当前行
窗口函数与分析函数 应用场景:
(1)用于分区排序
(2)动态Group By
(3)Top N
(4)累计计算
(5)层次查询
窗口函数与分析函数 区别:
窗口函数:对于每个组返回多行,
聚合函数:而聚合函数对于每个组只返回一行
https://blog.csdn.net/weixin_45473750/article/details/101599626
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。