赞
踩
Apache SeaTunnel作为下一代数据集成平台。同时也是数据集成一站式的解决方案,有下面这么几个特点。
特性:
https://seatunnel.apache.org/
https://github.com/apache/seatunnel
https://github.com/apache/seatunnel-web
DataX本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论上DataX框架可以支持任意数据源类型的数据同步工作。同时DataX插件体系作为一套生态系统, 每接入一套新数据源该新加入的数据源即可实现和现有的数据源互通。
特性:
https://github.com/alibaba/DataX/blob/master/introduction.md
https://github.com/alibaba/DataX.git
Sqoop 是一款开源工具,主要用于Hadoop (Hive) 数据和传统数据库(mysql ,postgresql)数据传递;可以把传统数据库数据转换到Hadoop HDFS 中,也可以把 HDFS 数据导入到关系型数据库中。
特性:
https://sqoop.apache.org/
https://github.com/apache/sqoop.git
Flume是一种可配置、高可用的数据采集工具,主要用于采集来自各种流媒体的数据(Web服务器的日志数据等)并传输到集中式数据存储区域。
Flume 支持在日志系统中定制各种数据发送方,用于收集数据;并且可以对数据进行简单处理,将其写到可定制的各种数据接收方(如文本、HDFS、HBase等)。
Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。
Apache Flume是一个用于收集、聚合和传输大规模数据的分布式系统。它具有许多特性,使其适用于各种数据流处理场景。
特性:
https://flume.apache.org/
资源地址:http://flume.apache.org/download.html
程序地址:http://apache.fayea.com/flume/1.6.0/apache-flume-1.6.0-bin.tar.gz
源码地址:http://mirrors.hust.edu.cn/apache/flume/1.6.0/apache-flume-1.6.0-src.tar.gz
Flink CDC 是一个基于流的数据集成工具,旨在为用户提供一套功能更加全面的编程接口(API)。 该工具使得用户能够以 YAML 配置文件的形式,优雅地定义其 ETL(Extract, Transform, Load)流程,并协助用户自动化生成定制化的 Flink 算子并且提交 Flink 作业。 Flink CDC 在任务提交过程中进行了优化,并且增加了一些高级特性,如表结构变更自动同步(Schema Evolution)、数据转换(Data Transformation)、整库同步(Full Database Synchronization)以及 精确一次(Exactly-once)语义。
Flink CDC 深度集成并由 Apache Flink 驱动,提供以下核心功能:
✅ 端到端的数据集成框架
✅ 为数据集成的用户提供了易于构建作业的 API
✅ 支持在 Source 和 Sink 中处理多个表
✅ 整库同步
✅具备表结构变更自动同步的能力(Schema Evolution),
https://nightlies.apache.org/flink/flink-cdc-docs-release-3.0/zh/
源码地址:https://github.com/apache/flink-cdc.git
Dinky 是一个开箱即用、易扩展,以 Apache Flink 为基础,连接 OLAP 和数据湖等众多框架的一站式实时计算平台,致力于流批一体和湖仓一体的探索与实践。 致力于简化Flink任务开发,提升Flink任务运维能力,降低Flink入门成本,提供一站式的Flink任务开发、运维、监控、报警、调度、数据管理等功能。
特性:
https://dinky.org.cn/
源码地址:https://github.com/DataLinkDC/dinky?tab=readme-ov-file
TIS快速为您提供企业级数据集成产品,基于批(DataX),流(Flink-CDC、Chunjun)一体,提供简单易用的操作界面,降低用户实施各端(MySQL、PostgreSQL、Oracle、ElasticSearch、ClickHouse、Doris等) 之间数据同步的实施门槛,缩短任务配置时间,避免配置过程中出错,使数据同步变得简单、有趣且容易上手。
核心特性
https://www.tis.pub/
源码地址:https://github.com/datavane/tis
TIS平台
FlinkX 现改名为 Chunjun(纯钧) ,它其实就是一款基于 Flink 实现 多种异构数据源 之间的数据同步与计算,且支持流批一体的开源数据集成框架。FlinkX将不同的数据库抽象成了 reader/source 插件,writer/sink 插件和lookup 维表插件。
特点:
https://dtstack.github.io/chunjun/
源码地址:https://github.com/DTStack/chunjun
各类产品对比
对比项 | SeaTunnel | DataX | Sqoop | Flume | Flink CDC | Dlinky | TIS | Chunjun |
---|---|---|---|---|---|---|---|---|
社区 | 活跃 | 非常不活跃 | 已经从 Apache 退役 | 非常不活跃 | 非常活跃 | 非常活跃 | 活跃 | 非常不活跃 |
定位 | ETL数据集成平台 | ETL数据同步工具 | ETL数据同步工具 | ETL数据同步工具 | ETL数据同步工具 | ETL数据同步工具 | ETL数据集成平台 | ETL数据同步工具 |
部署难度 | 容易 | 容易 | 中等,依赖于 Hadoop 生态系统 | 容易 | 中等,依赖于 Flink 或 Hadoop 生态 | 容易 | 容易,插件需要单独下载 | 容易 |
运行模式 | 分布式,也支持单机 | 单机 | 本身不是分布式框架,依赖 Hadoop MR 实现分布式 | 分布式,也支持单机 | 分布式,也支持单机 | 分布式,也支持单机 | 分布式,也支持单机 | 分布式,也支持单机 |
健壮的容错机制 | 无中心化的高可用架构设计,有完善的容错机制 | 易受比如网络闪断、数据源不稳定等因素影响 | MR 模式重,出错处理麻烦 | 有一定的容错机制 | 健壮的容错机制 | 健壮的容错机制 | 健壮的容错机制 | 健壮的容错机制 |
支持的数据源丰富度 | 支持 MySQL、PostgreSQL、Oracle、SQLServer、Hive、S3、RedShift、HBase、Clickhouse等过 100 种数据源 | 支持 MySQL、ODPS、PostgreSQL、Oracle、Hive 等 20+ 种数据源 | 仅支持 MySQL、Oracle、DB2、Hive、HBase、S3 等几种数据源 | 支持 Kafka、File、HTTP、Avro、HDFS、Hive、HBase等几种数据源 | 支持 MySQL、PostgresSQL、MongoDB、SQLServer 等 10+ 种数据源 | 支持 MySQLCDC 到 PostgresSQL、MongoDB、SQLServer 等 10+ 种数据源 | 支持MySQL、MySQLCDC、PostgresSQL、Doris、ClickHouse、Oracle、SQLServer、Hive、Kafka、HDFS等10+数据源 | 支持MySQL、MySQLCDC、PostgresSQL、Doris、ClickHouse、Oracle、SQLServer、Hive、Kafka、HDFS等10+数据源 |
内存资源占用 | 少 | 多 | 多 | 中等 | 少 | 少 | 中等,插件越多占内存越多 | 少 |
数据库连接占用 | 少(可以共享 JDBC 连接) | 多 | 多 | 多 | 多(每个表需一个连接) | 多(每个表需一个连接) | 多(每个表需一个连接) | 多(每个表需一个连接) |
自动建表 | 支持 | 不支持 | 不支持 | 不支持 | 支持 | 支持 | 支持 支持 | |
整库同步 | 支持 | 不支持 | 不支持 | 不支持 | 支持 | 支持 | 支持(可配置每张表字段) | 支持 |
断点续传 | 支持 | 不支持 | 不支持 | 不支持 | 支持 | 支持 | 支持 | 支持 |
多引擎支持 | 支持 SeaTunnel Zeta、Flink、Spark 3 个引擎选其一作为运行时 | 只能运行在 DataX 自己引擎上 | 自身无引擎,需运行在 Hadoop MR 上,任务启动速度非常慢 | 支持 Flume 自身引擎 | 只能运行在 Flink 上 | 只能运行在 Flink上 | 插件支持DataX、FlinkCDC、Chunjun、Hudi | 只能运行在 Flink上 |
数据转换算子(Transform) | 支持 Copy、Filter、Replace、Split、SQL 、自定义 UDF 等算子 | 支持补全,过滤等算子,可以 groovy 自定义算子 | 只有列映射、数据类型转换和数据过滤基本算子 | 只支持 Interceptor 方式简单转换操作 | 支持 Filter、Null、SQL、自定义 UDF 等算子 | 支持Filter、SQL | 支持前置后置操作 | 文档不全 |
单机性能 | 比 DataX 高 40% - 80% | 较好 | 一般 | 一般 | 较好 | 较好 | 较好 | 较好 |
离线同步 | 支持 | 支持 | 支持 | 支持 | 支持 | 支持 | 支持 | 支持 |
增量同步 | 支持 | 支持 | 支持 | 支持 | 支持 | 支持 | 支持 | 支持 |
实时同步 | 支持 | 不支持 | 不支持 | 支持 | 支持 | 支持 | 支持 | 支持 |
CDC同步 | 支持 | 不支持 | 不支持 | 不支持 | 支持 | 支持 | 支持 | 支持 |
批流一体 | 支持 | 不支持 | 不支持 | 不支持 | 支持 | 支持 | 支持 | 支持 |
精确一致性 | MySQL、Kafka、Hive、HDFS、File 等连接器支持 | 不支持 | 不支持 | 不支持精确,提供一定程度的一致性 | MySQL、PostgreSQL、Kakfa 等连接器支持 | MySQL、PostgreSQL、Kakfa 等连接器支持 | 精确一致性 | 精确一致性 |
可扩展性 | 插件机制非常易扩展 | 易扩展 | 扩展性有限,Sqoop主要用于将数据在Apache Hadoop和关系型数据库之间传输 | 易扩展 | 易扩展 | 不易扩展 | 易扩展,可使用插件扩展 | 不易扩展 |
统计信息 | 有 | 有 | 无 | 有 | 无 | 有 | 有 | 无 |
Web UI | 正在实现中(拖拉拽即可完成) | 无 | 无 | 无 | 无 | 有 | 有 | 无 |
与调度系统集成度 | 已经与 DolphinScheduler 集成,后续也会支持其他调度系统 | 不支持 | 不支持 | 不支持 | 无 | 可与DolphinScheduler集成 | 不支持不支持 |
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。