CDC 数据入湖方案：MySQL ＞ Kafka Connect + Schema Registry + Avro ＞ Kafka ＞ Hudi_flink cdc kafka schema registry

作者：菜鸟追梦旅行 | 2024-04-29 13:50:25

踩

flink cdc kafka schema registry

本文介绍的整体方案选型是：使用 Kafka Connect 的 Debezium MySQL Source Connector 将 MySQL 的 CDC 数据（Avro 格式）接入到 Kafka 之后，通过 Flink 读取并解析这些 CDC 数据，其中，数据是以 Confluent 的 Avro 格式存储的，也就是说，Avro 格式的数据在写入到 Kafka 以及从 Kafka 读取时，都需要和 Confluent Schema Registry 进行交互，从而获取 Schema 信息，消息经 Flink 读取后会写入到 Hudi 表，从而完成全部的数据接入工作。

1. 前置依赖

本文不会展开介绍 CDC 数据进入 Kafka 之前的操作，此部分可以参考: 《CDC数据入湖方案: 当 Apache Hudi DeltaStreamer 遇见 Serverless Spark》一文的前半部分架构以及第 2 节环境准备部分的介绍，以下是前半部分数据管道使用到的相关组件的构建方法和文档:

①MySQL：如果仅以测试为目的，建议使用Debezium提供的官方Docker镜像，构建操作可参考其官方文档（下文将给出的操作示例所处理的CDC数据就是自于该M

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/508080