赞
踩
是 Hadoop Upserts Deletes and Incrementals 的简写
Hudi在华为的实践
catalog
Iceberg有catalog的概念,是对表进行管理(create,drop等)的一个组件
目前有HiveCatalog和HadoopCatalog:
选择性问题
数据湖Iceberg
特性
已知问题:
datasource 是基于spark DataSource V2的
支持update,支持upsert(merge),具体看类IcebergSparkSqlExtensionsParser.replaceRowLevelCommands
支持 flink sql upsert
分区是隐藏的,在查询时不需要添加关于分区的筛选条件,建表的时候指定分区的来源(由哪个字段计算而来)
需要额外的服务治理小文件,额外的服务清理过期的snapshot
支持多种存储,如 S3,oss,HDFS 等
datasource 是基于spark DataSource V2的
https://docs.databricks.com/delta/delta-change-data-feed.html
支持update 支持upsert(merge) 怎么实现的?(支持SQL) 查看DeltaAnalys规则
lakehouse
https://mp.weixin.qq.com/s/R6YyR-19Vn0XTprIF8injw
https://appukvkryx45804.h5.xiaoeknow.com/v2/course/alive/l_632180f4e4b00a4f3740e4d8?type=2&app_id=appukVkRYx45804&available=true&share_user_id=u_607a11801629e_g60oUULXet&share_type=5&scene=%E5%88%86%E4%BA%AB&share_scene=1&entry=2&entry_type=2001&state=772b18c31531e20f27880ac1e0d299ec_GE5d1O
直播
https://appukvkryx45804.h5.xiaoeknow.com/v2/course/alive/l_632180f4e4b00a4f3740e4d8?app_id=appukVkRYx45804&available=true&entry=2&entry_type=2001&scene=%E5%88%86%E4%BA%AB&share_scene=1&share_type=5&share_user_id=u_607a11801629e_g60oUULXet&type=2
ZOrder
https://docs.google.com/document/d/1TYFxAUvhtYqQ6IHAZXjliVuitA5D1u793PMnzsH_3vs/edit#
需要验证的问题
benchmark
https://github.com/delta-io/delta/tree/master/benchmarks
火山引擎分享
Apache Hudi
存在数据孤岛,数据可靠性非强保障, =》需要统一元数据服务
实时入湖成本高,用户理解成本高 =》表操作管理服务
华为终端分享
apache iceberg
做了很多改造
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。