当前位置:   article > 正文

hive表数据更新insert overwrite/merge into_insert overwrite table指定字段

insert overwrite table指定字段

背景:

根据甲方要求,需要对大数据平台指定表(hive、impala表)的历史数据[2021-01-01至2023-03-29]指定字段进行批量更新,然后把表同步到Oracle。先更新大数据平台上的表,再把更新完成的表同步到Oracle。hive有8张表更新,其中4张大表【分区表】(数据量分别为:1038738976、260958144、25860509、2867005),另外4张小表(几万、二十几万的样子)。

一、小表更新,不用按月\按分区更新,直接全量更新。

  1. insert overwrite table 表a (字段1,字段2,...,字段n)
  2. select
  3. 字段1,字段2,...,
  4. nvl(t2.projectbelong,t1.projectbelong) projectbelong,
  5. ...,
  6. 字段n
  7. from 表a t1
  8. left join 表b t2 on t1.root_item_code=t2.desc1;

二、大表更新,拿其中一张表举例:按月\按分区更新

方法一:

  1. insert overwrite table1 partition (date_month = '2021-01',date_day,org_code)
  2. select
  3. 字段1,字段2,...,
  4. nvl(t2.projectbelong,t1.projectbelong) projectbelong,
  5. ...,
  6. 字段n,
  7. --t1.date_month,
  8. t1.date_day,
  9. t1.org_code
  10. from (select * from1 where date_month = '2021-01') t1
  11. left join2 t2 on t1.root_item_code=t2.desc1;

替换date_month日期即可。

方法二:

使用impala外部命令:impala-shell

1、创建impala.sql脚本,内容如下:

Linux上,使用vim:

vim impala.sql

 写入以下内容:

  1. insert overwrite table1 partition (date_month = '${var:CURR_TIME}',date_day,org_code)
  2. select
  3. 字段1,字段2,...,
  4. nvl(t2.projectbelong,t1.projectbelong) projectbelong,
  5. ...,
  6. 字段n,
  7. --t1.date_month,
  8. t1.date_day,
  9. t1.org_code
  10. from (select * from1 where date_month = '${var:CURR_TIME}') t1
  11. left join2 t2 on t1.root_item_code=t2.desc1;

2、impala外部命令:

impala-shell -f impala.sql -d tianma_bi --var CURR_TIME='2021-01';

3、多个月份,使用vim命令创建bash文件:impala.sh

  1. impala-shell -f impala.sql -d tianma_bi --var CURR_TIME='2021-01';
  2. impala-shell -f impala.sql -d tianma_bi --var CURR_TIME='2021-02';
  3. impala-shell -f impala.sql -d tianma_bi --var CURR_TIME='2021-03';

4、执行sh文件:

sh impala.sh

更新总结:m-分钟、s-秒
1、百万级表数据总量:500万,更新用时约20s
2、千万级表数据总量:2500万,更新用时约1m
3、亿级表数据总量:分区更新
50万,更新用时约17s
100万,更新用时约32s
500万,更新用时约2m10s
1000万,更新用时约5m
1500万,更新用时约6m
2000万,更新用时约6m30s
5000万,更新用时约16m
7500万,更新用时约22m
根据以上,估算1亿数据更新用时约35m

方法三:也可使用merge into

说明:Hive在2.2版本之后开始支持Merge操作,并且Merge只能在支持ACID的表上执行。低版本的hive中有很多函数或者语句不支持使用,比如merge into

举个例子:

  1. MERGE INTO merge_data.transactions AS T
  2. USING merge_data.merge_source AS S
  3. ON T.ID = S.ID and T.tran_date = S.tran_date
  4. WHEN MATCHED AND (T.TranValue != S.TranValue AND S.TranValue IS NOT NULL) THEN UPDATE SET
  5. TranValue = S.TranValue
  6. ,last_update_user = 'merge_update'
  7. WHEN MATCHED AND S.TranValue IS NULL THEN DELETE
  8. WHEN NOT MATCHED THEN INSERT VALUES (
  9. S.ID
  10. , S.TranValue
  11. , 'merge_insert'
  12. , S.tran_date
  13. );

建议使用merge into,效率更快一些。 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/397244
推荐阅读
相关标签
  

闽ICP备14008679号