赞
踩
1、创建拉链表
create external if exists dwd_user_info(
`id` string COMMENT '用户id',
`name` string COMMENT '姓名',
`start_date` string COMMENT '开始日期',
`end_date` string COMMENT '结束日期'
)COMMENT '用户信息拉链表'
2、初始化拉链表(导入2020-11-08数据)
insert overwrite table dwd_user_info
select
id,
name,
'2020-11-08',
'9999-99-99'
from ods_user_info
where dt="2020-11-08"
3、创建用户信息临时表
create external if exists dwd_user_info_tmp(
`id` string COMMENT '用户id',
`name` string COMMENT '姓名',
`start_date` string COMMENT '开始日期',
`end_date` string COMMENT '结束日期'
)COMMENT '用户信息临时表'
4、导入2020-11-09数据
insert overwrite table dwd_user_info_tmp
select * from
(
(select
id,
name,
'2020-11-09' as start_date,
'9999-99-99 as end_date'
from ods_user_info
where dt="2020-11-09" #取出ods层用户信息表11月9日数据,并制作初始拉链表
) #这是新增数据及变化所有数据
unoin all
(select
t1.id,
t1.name,
t1.start_date,
if(t2.id is not null and t1.end_date='9999-99-99',date_add(t2.dt,-1),t1.end_date) as end_date
from
dwd_user_info t1 #取出dwd层用户信息拉链表数据
left join
(select * from ods_user_info where dt="2020-11-09") t2 #取出ods层用户信息表11月9日增量及变化数据
on t1.id = t2.id
)#通过left join 找出不是新增的数据,而是修改的数据,并将修改的时间-1,原拉链表存在的数据不变,只是修改结束时间
)
t2.id is not null and t1.end_date='9999-99-99' 判断t2不是新增数据
unoin all 用来去除原拉链表中没有变化的数据和新增数据重复的部分
ps:
这部分重复的数据可能是业务数据原来是1,后来改为2,再改为1,信息不变,但修改时间变了
5、临时表数据回写覆盖拉链表
insert overwrite table dwd_user_info
select * from dwd_user_info_tmp;
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。