赞
踩
随着智能数据时代的到来,数据量爆发式增长,数据形态呈海量化和多样化发展,不再是单一的结构化数据。从海量和多样化的数据做融合分析,创造更多业务价值的诉求日益强烈。在本期《GaussDB(DWS)湖仓融合技术解析》的主题直播中,华为云数仓GaussDB(DWS)研发专家高若岳老师,深入解析GaussDB(DWS)数据仓库如何与大数据生态快速对接?如何高效访问开源数据?GaussDB(DWS)湖仓融合技术为企业带来哪些助力?
不同的用户对数据湖的概念有不同的理解,例如:
数据湖的优势
湖仓融合架构图
当前GaussDB(DWS)湖仓融合技术,支持以下三种数据格式:
Parquet/ORC:融合查询,复杂类型查询,支持多种压缩算法,支持多种方式写出。
支持COW、MOR的导入查询,以及增联同步导入。
湖仓融合主要面临3个难点:
本次分享,我们重点详细讲解Hudi和元数据打通两大功能。
Hudi是什么?
Hudi 是一个功能丰富的存储管理平台,支持构建具有增量数据管道的流式数据湖,针对处理引擎和常规批处理进行了优化;针对数据探索、BI场景的交互式分析能力进行了优化。
Hudi具备自动同步能力,可以将单表同步任务实现外表到内表的数据合并,记录增量同步进度。智能调度框架,实现定时调用存储过程任务,并进行资源管控调度,提供任务启停,告警等运维能力。
当前DWS支持自动增量同步
自动同步
(1)单表同步任务实现外表到内表的数据合并,记录增量同步进度。(列映射, Hudi增量commit time同步点)
(2)智能调度框架,实现定时调用存储过程任务,并进行资源管控调度,提供任务启停,告警等运维能力 。
Hudi同步任务使用:
(1)支持Hudi两种表类型,COW、MOR;
(2)支持Hudi两种查询视图,snapshot、incremental。
针对Hudi增量查询功能,可以通过设置增量查询参数实现增量查询。
可以通过查询以下视图查看已经设置了哪些参数,检查是否设置正确。
读取OBS上Hudi数据的hoodie.properties。
读取OBS上Hudi数据最大时间线,也就是最新的提交记录。
元数据打通
图一属于存算分离架构,存算分离,底层数据文件可对上层服务共享。湖和仓的元数据隔离,共享数据仍需ETL。湖和仓权限隔离,不支持统一权限管理。
图二湖仓一体架构,在存算分离的基础上,构建统一元数据层,上层服务通过统一元数据层,便捷高效地共享数据,对上层服务实现统一的高效的权限管理。
前提条件:
步骤一:在GaussDB(DWS)管理控制台,单击“集群管理”
步骤二:在集群列表,单机指定集群的名称,然后选择“数据源->Lakeformation数据源”。
步骤三:在LakeFormation数据源页面,单击“创建LakeFormation数据源连接”,填写配置参数。
通过创建external schema来访问存储在Lakeformation服务中MRS服务表的元数据,进而访问存储在OBS上的表数据。
查询:其中ex_lf为前面创建的external schema的名称,test为想要访问的Lakeformation服务的表。且该表已经在角色授权中对当前用户授予此表对应的select权限。
本期分享到此结束,更多关于GaussDB(DWS)产品技术解析、数仓产品新特性的介绍,请关注GaussDB(DWS)开发者平台,GaussDB(DWS)开发者平台为开发者们提供最新、最全的信息咨询,包括精品技术文章、最佳实践、直播集锦、热门活动、海量案例、智能机器人。让您学+练+玩一站式体验GaussDB(DWS)。
GaussDB(DWS)开发者平台链接:DWS-华为云
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。