赞
踩
将一行数据拆分多行,即制表函数,接收一行数据,输出一行或多行数据。
把一行数组或者键值对数据拆分为多行,返回元素
语法:
--explode():把一行数组或者键值对数据拆分为多行,返回元素
select explode(array(value1,value2,...)) as item from table_name;
select explode(map(key1,value1,key2,value2,...)) as (key,value) from table_name;
pos表示元素在数组中的位置即下标,返回元素及位置(下标)
--posexplode():pos表示元素在数组中的位置即下标,返回元素及位置(下标)
select posexplode(array(value1,value2,...)) as (pos,item) from table_name;
拆分结构体数据,一个结构体作为一行。
--inline():一个结构体作为一行 select inline(array(struct(property1,value1_1,property2,value2_1,....), struct(property1,value1_2,property2,value2_2,....), ) ) as (property1,property2,...) from table_name; --如: select inline( array( named_struct("id",1,"name","zs"), named_struct("id",2,"name","ls"), named_struct("id",3,"name","ww") ) ) as (id,name) from table_name;
UDTF通常与Lateral View使用。
Lateral View将UDTF应用到源表的每行数据,把每行数据转换为一行或多行,并将源表中每行的输出结果与该行连接起来,形成一个虚拟表。
--lateral view:与explode连用
select
...,
new_col
from table_name lateral view explode(col_name) tmp as new_col;
--把from后当作一个整体,作为虚拟表,tmp为炸出来的表
数据准备:
表结构:
--建表
create table movie_info(
movie string, --电影名称
category string --电影分类
)
row format delimited fields terminated by"\t";
--插入数据
insert overwrite table movie_info
values ("《疑犯追踪》", "悬疑,动作,科幻,剧情"),
("《Lie tome》", "悬疑,警匪,动作,心理,剧情"),
("《战狼2》","战争,动作,灾难");
需求及实现:
--根据电影信息表,统计各分类(分组聚合)的电影数量:cate cnt select cate, count(*) cnt from( select movie, cate from( select --t1表用于分割一个电影的一串类别字符串为类别数组 movie, split(category,',') cates from movie_info )t1 lateral view explode(cates) tmp as cate --炸裂为虚拟表t2 )t2 group by cate;
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。