基于 Flink CDC 的现代数据栈实践_阿里云rds flink cdc

作者：2023面试高手 | 2024-03-05 10:28:08

踩

阿里云rds flink cdc

摘要：本文整理自阿里云技术专家，Apache Flink PMC Member & Committer, Flink CDC Maintainer 徐榜江和阿里云高级研发工程师，Apache Flink Contributor & Flink CDC Maintainer 阮航，在 Flink Forward Asia 2022 数据集成专场的分享。本篇内容主要分为四个部分：
1.深入解读 Flink CDC 2.3 版本
2.基于 Flink CDC 构建现代数据栈
3.阿里云内部实践和改进
4.Demo & 未来规划

一、深入解读 Flink CDC 2.3 版本

1.1 Flink CDC

首先介绍一下 Flink CDC 技术。Flink CDC 是基于数据库的日志 CDC 技术，实现了全增量一体化读取的数据集成框架。配合 Flink 优秀的管道能力和丰富的上下游生态，Flink CDC 可以高效实现海量数据的实时集成。

如上图所示，在数据库中，我们有历史的全量数据，也有实时的增量数据。比如上游有业务系统在源源不断实时写入数据，Flink CDC 技术的能力就是将全量数据和增量数据无缝集成到 Flink 引擎中，为下游应用提供实时的一致性快照。

1.2 Flink CDC 2.3 基本介绍

2022 年 11 月 10 日，Flink CDC 社区发布了 2.3 版本。此版本的贡献者共有 49 位，解决了 126 个 issue，合并的 PR 达到 133 个；合并的 commits 达到 173 个。

在 Flink CDC 2.3 版本中，我们按代码的贡献模块进行了划分。其中 MySQL 占比最高达到了 24%，Oracle 占 15%，MongoDB 占 7%，TiDB 占 7%，包含全量框架的 Base 模块占比 11%。此外文档的贡献也占有 22%的比例，其中包括新增了很多中文文档和视频教程，这些文档的目的就是为了帮助用户特别是中文用户更好地使用 Flink CDC。

1.3 Flink CDC 2.3 技术改进

以下是 Flink CDC 2.3 版本中主要新特性和改进，包括：

支持了 Db2 数据源。
Oracle CDC 支持增量快照。
MongoDB CDC 支持增量快照。
MySQL CDC 支持指定位点。
MySQL CDC 性能优化。
OceanBase CDC 支持了 OceanBase 的全部数据类型。
兼容 Flink 1.15 & 1.16 两个大版本。
提供中文文档及视频教程支持。

1.4 Flink CDC 2.3 核心特性解读

在 Flink CDC 2.3 版本中，有四大核心特性值得深入介绍：

新增 Db2 数据源支持。
MySQL CDC 稳定性提升。
Oracle CDC 支持增量快照读取。
MongoDB CDC 支持增量快照读取。

下面将为大家进行详细讲解。

第一部分，Db2 CDC 连接器。Db2 数据库在国内外都有很多用户在使用，社区用户反馈的声音也比较

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/2023面试高手/article/detail/190301