当前位置:   article > 正文

全国职业院校技能大赛(大数据)2024

全国职业院校技能大赛

23年国赛和24年:赛卷题目、代码、数据都有(有偿,白嫖勿扰)

编写 Scala 工程代码,将 ods 库中表 order_master、order_detail、
coupon_info、coupon_use、product_browse、product_info、customer_inf、
customer_login_log、order_cart、customer_level_inf、customer_addr 抽取
到 Hive 的 dwd 库中对应表中。表中有涉及到 timestamp 类型的,均要求按照
yyyy-MM-dd HH:mm:ss,不记录毫秒数,若原数据中只有年月日,则在时分秒的
位置添加 00:00:00,添加之后使其符合 yyyy-MM-dd HH:mm:ss。
1、 抽取 ods 库中表 customer_inf 最新分区数据,并结合 dim_customer_inf 最
新 分 区 现 有 的 数 据 , 根 据 customer_id 合 并 数 据 到 dwd 库 中
dim_customer_inf 的分区表(合并是指对 dwd 层数据进行插入或修改,需修
改的数据以 customer_id 为合并字段,根据 modified_time 排序取最新的一
条),分区字段为 etl_date 且值与 ods 库的相对应表该值相等,并添加
dwd_insert_user、dwd_insert_time、dwd_modify_user、dwd_modify_time
四列,其中 dwd_insert_user、dwd_modify_user 均填写“user1”。若该条 记录第一次进入数仓 dwd 层则 dwd_insert_time、dwd_modify_time 均存当
前操作时间,并进行数据类型转换。若该数据在进入 dwd 层时发生了合并修
改,则 dwd_insert_time 时间不变,dwd_modify_time 存当前操作时间,其
余列存最新的值。使用 hive cli 查询 modified_time 为 2022 年 10 月 01 日
当天的数据,查询字段为 customer_id、customer_email、modified_time、
dwd_insert_time、dwd_modify_time,并按照 customer_id 进行升序排序,
将结果截图粘贴至客户端桌面【Release\模块 D 提交结果.docx】中对应的
任务序号下;

​​​​​​​

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/982798
推荐阅读
相关标签
  

闽ICP备14008679号