当前位置:   article > 正文

hive之拉链表实现过程及剖析_hive拉链表的实现过程

hive拉链表的实现过程

1、创建拉链表
create external if exists dwd_user_info(
    `id` string COMMENT '用户id',
    `name` string COMMENT '姓名',
    `start_date` string COMMENT '开始日期',
    `end_date` string COMMENT '结束日期'
)COMMENT '用户信息拉链表'

2、初始化拉链表(导入2020-11-08数据)
insert overwrite table dwd_user_info
select
    id,
    name,
    '2020-11-08',
    '9999-99-99'
from ods_user_info 
where dt="2020-11-08"


3、创建用户信息临时表
create external if exists dwd_user_info_tmp(
    `id` string COMMENT '用户id',
    `name` string COMMENT '姓名',
    `start_date` string COMMENT '开始日期',
    `end_date` string COMMENT '结束日期'
)COMMENT '用户信息临时表'

4、导入2020-11-09数据
insert overwrite table dwd_user_info_tmp
select * from
(
    (select
        id,
        name,
        '2020-11-09' as start_date,
        '9999-99-99 as end_date'
    from ods_user_info 
    where dt="2020-11-09" #取出ods层用户信息表11月9日数据,并制作初始拉链表
    ) #这是新增数据及变化所有数据
    unoin all
    (select
        t1.id,
        t1.name,
        t1.start_date,
        if(t2.id is not null and t1.end_date='9999-99-99',date_add(t2.dt,-1),t1.end_date) as end_date
    from 
        dwd_user_info t1 #取出dwd层用户信息拉链表数据
    left join
        (select * from ods_user_info where dt="2020-11-09") t2 #取出ods层用户信息表11月9日增量及变化数据
    on t1.id = t2.id
    )#通过left join 找出不是新增的数据,而是修改的数据,并将修改的时间-1,原拉链表存在的数据不变,只是修改结束时间
)
t2.id is not null and t1.end_date='9999-99-99' 判断t2不是新增数据
unoin all 用来去除原拉链表中没有变化的数据和新增数据重复的部分
ps:
这部分重复的数据可能是业务数据原来是1,后来改为2,再改为1,信息不变,但修改时间变了

5、临时表数据回写覆盖拉链表
insert overwrite table dwd_user_info
select * from dwd_user_info_tmp;

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/255279
推荐阅读
相关标签
  

闽ICP备14008679号