当前位置:   article > 正文

Hive SQL基础及优化_hive sql 数组包含

hive sql 数组包含

SQL

SQL基础语法

基本含义(与excel对应)

库(文件夹)
表(Excel名称)
字段(Excel第一行,包含字段名,字段数据类型、注释)
分区字段(sheet表,一般是日期,相当于在查询的时候提升速度)(必须限制分区,否则hive会报错)

数据来源

数据地图(查寻需要的表)
KwaiBI(查询平台)

Hive SQL查询语法

select[all | distinct] select_expr,…
from
[where]
[group by]
[having]
[order by]
[limit [offset,]rows]

单表查询语法和使用

1,select

select a+b as 'cnt’
from
where

2,group by*

group by后,必须包含group by的字段,剩余内容为分组的计算结果

select pic, count(1) as cnt
from
where p_date =
having count(1)>1000

3,聚合函数

count(*) :包括null
count(expr):不包括null
count(DISTINCT expr):去重后行数,不包括null

sum(col)
sum(DISTINCT col):去重求和

avg(col),avg(DISTINCT col):去重求平均

collect_set(col):拼成去重数组
在hive中求出一个数据表中在某天内首次登陆的人;

select a.id
from (select id,collect_set(time) as t from t_action_login where time<='20150906' group by id) as a where size(a.t)=1 and a.t[0]='20150906';
  • 1
  • 2

123@163.com | [“2

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/458241
推荐阅读
相关标签
  

闽ICP备14008679号