运维做开发

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

Paimon新版本核心特性和生产实践解读

作者：运维做开发 | 2024-07-14 13:31:08

赞

踩

paimon 最新

最近Apche Paimon发布了最新版本0.7.0，在这个版本中，Paimon对一些新特性进行了增强。

Paimon在数据湖领域发展迅速，未来会在整个数据开发领域占有很重要的地位，今天我们来盘点一下当前能力的特点以及在生产环境中的使用情况。

Look up join

在实时数据开发领域，Look up join一般被认为等效于「维度表关联」。在一些企业的分享中，利用Paimon进行维度表关联，是一个比较常见的方式或者是未来的规划。

在Paimon的最新版本中，针对Look up join做了一些优化如下：


修复了lookup join 不能正确处理维表的 sequence field 问题。
基于 Paimon 的 hash lookup join，添加了 primary key partial lookup 功能。
通过并行读取文件和批加载的方式，加快了维表的初始化数据加载速度。

维度表关联在生产环境中是一个经常被提及和使用的能力，但是目前根据个人经验，利用Paimon/Hudi进行维度表关联目前不是一个很好的选择。主要的不足包括：Paimon/Hudi这样的表本身并不适合存储维度数据，有更好的选择例如Hbase/Redis或者基于这两个框架开发的其他高速存储；此外，维度表关联在复杂/大数据规模下问题非常多，例如缓存命中率/缓存时间/加载频率/访问限速等等，这些问题在大数据量下会被放大，是不得不解决的问题。在很多公司的生产环境针对维度表优化是一个很重要的课题。

所以，大家需要谨慎评估使用湖表的look up join能力。

CDC能力

大家要特别注意的是，CDC能力分两个部分：

第一，CDC入Paimon

这个能力是一个基础能力，Paimon在新的CDC接入支持上越来越完善，这个是各类型湖表都在持续完善的能力。

CDC数据入湖在时效/存储/计算成本上都会有独特的优势，大家可以持续关注。

第二，Paimon CDC能力

这个能力未来是否具备，大家可以持续关注，一旦Paimon具备的CDC能力，未来在技术架构上会有巨大的改变。Paimon将同时具备批读和流读能力，会在某些场景下改变现有的技术架构，那就真的是未来可期。

完善对接Spark/Hive

在结合Spark/Hive方面，能力不断完善，这也是Paimon这类湖表框架未来被更广泛使用的基础。

此外还有一些功能上的改进，例如支持 level0FileCount，它可以用于查看 compaction 作业的进度；time travel能力增强等等。

总之，大家持续关注Paimon社区的发展，未来在生产环境会有更广泛和深入的应用。

300万字！全网最全大数据学习面试社区等你来！

如果这个文章对你有帮助，不要忘记 「在看」 「点赞」 「收藏」 三连啊喂！

全网首发|大数据专家级技能模型与学习指南(胜天半子篇)

互联网最坏的时代可能真的来了

我在B站读大学，大数据专业

我们在学习Flink的时候，到底在学习什么？

193篇文章暴揍Flink，这个合集你需要关注一下

Flink生产环境TOP难题与优化，阿里巴巴藏经阁YYDS

Flink CDC我吃定了耶稣也留不住他！| Flink CDC线上问题小盘点

我们在学习Spark的时候，到底在学习什么？

在所有Spark模块中，我愿称SparkSQL为最强！

硬刚Hive | 4万字基础调优面试小总结

数据治理方法论和实践小百科全书

标签体系下的用户画像建设小指南

4万字长文 | ClickHouse基础&实践&调优全视角解析

【面试&个人成长】社招和校招的经验之谈

大数据方向另一个十年开启 |《硬刚系列》第一版完结

我写过的关于成长/面试/职场进阶的文章

当我们在学习Hive的时候在学习什么？「硬刚Hive续集」

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/运维做开发/article/detail/824839

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号