赞
踩
本方案的技术链路为:使用 Flink CDC 将 MySQL 的 CDC 数据 (Avro 格式)接入到 Kafka ,然后通过 Hudi 的 HoodieMultiTableStreamer 将摄取的 CDC 数据写入到 Hudi 表中。整个链路由 Confluent Schema Registry 控制 Schema 的变更。本文和《CDC 实时入湖方案:MySQL > Flink CDC > Kafka & Schema Registry > Hudi ( Flink Connector ) 》介绍的方案类似,不同之处在于,链路末端读取 Kafka 数据并写入 Hudi 表的操作从 Flink Hudi Connector 改为了 HoodieMultiTableStreamer,以验证使用 Hudi 原生机制 HoodieMultiTableStreamer 实现多表入湖的可行性。
1. 本文使用一个名为 gmall 的数据库,点击 [ 此处 ] 下载建库脚本;
2. 本文需要搭建一个 Confluent Schema Registry,如果仅以测试为目的,建议使用 Confluent 提供的 官方Docker镜像,构建操作可参考其 [官方文档];
3. 本文需要一个 E
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。