当前位置:   article > 正文

数据ETL、数据迁移工具_etl 工具进行数据迁移

etl 工具进行数据迁移

摘要

简述有哪些ETL工具,将数据库的数据从一个库迁移到另一个库,比如将数据从一个MySql库迁移到另一个MySql库,将数据从Hive迁移到MySql或者从PostgreSql迁移到Hive等等。
经过调研,发现有Sqoop、dataX、Kettle、Canal、StreamSets等一些工具可以使用。

Sqoop

Sqoop是Sql to Hadoop的简称。
Apache开源的一款在Hadoo和关系数据库之间传输数据的工具。可以将关系型数据库中的数据导出到Hadoop的HDFS,也可以将HDFS的数据导出到关系型数据库。
底层是转换为MapReduce程序,可以增量导入,也可以全量导入。
在这里插入图片描述

dataX

阿里巴巴开源的离线数据同步工具,实现了关系型数据库之间,大数据之间,关系型数据库和大数据之间的数据同步功能。
在这里插入图片描述

Kettle

国外免费开源的、可视化的的ETL工具,支持拖拉拽的方式进行数据同步,无须写代码。
纯Java编写。

Canal

阿里巴巴开源项目,纯Java开发。目前在阿里、美团等生产环境中有广泛的应用。
基于数据库增量日志解析,提供增量数据实时订阅和消费,目前主要支持MySQL和MariaDb作为源数据端,目的端支持关系型数据库和大数据。
Canal的工作原理就是把自己伪装成MySQL slave,模拟MySQL slave的交互协议,想MySQL Master发送dump协议, MySQL master收到canal发送过来的dump请求,开始推送binary log给canal,然后canal解析binary log,在发送到存储目的地,比如MySQL、Kafka、ElasticSearch。
在这里插入图片描述

StreamSets

大数据实时采集ETL工具,可以实现不写一行代码万册好难过数据的采集和流转。通过拖拽式的可视化界面,实现数据管道的设计和定时任务调度。
支持100+数据源和目标源,数据源支持MySQL、Oracle等结构化和半/非结构化,目标源支持HDFS、Hive、Hbase、Kudu、Solr、Elasticserach等

参考

https://devpress.csdn.net/big-data/649c1ce314a690225968163b.html
https://www.jianshu.com/p/23ec3a386dc9

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/983718
推荐阅读
相关标签
  

闽ICP备14008679号