搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
爱喝兽奶帝天荒
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
推荐一个AI代码阅读神器_代码阅读ai
2
【Python爬虫】分享11 个有趣的 Python 爬虫例子,附源码!_爬取 有趣实例
3
GIT问题(一)——push冲突
4
Hive:insert into table 与 insert overwrite table 区别
5
微调 GPT-2 完成文本生成任务_gpt2微调
6
配置下载 docker镜像 playedu开源 最佳实践部署
7
IMX6ULL启动过程详解
8
探索编程艺术之门:HackerRank解决方案全景指南
9
网络安全工具100套_网络安全小工具
10
基于大数据爬虫+Hadoop超市进货推荐系统设计和实现(源码+LW+部署讲解)
当前位置:
article
> 正文
sqoop (Hadoop(Hive)与传统的数据库(mysql..)间进行数据的传递工具) 基础概念_在 hadoop 和传统数据库之间进行大数据传输,可以使用
作者:爱喝兽奶帝天荒 | 2024-06-22 06:24:44
赞
踩
在 hadoop 和传统数据库之间进行大数据传输,可以使用
sqoop
Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个
Apache
项目。
特征
编辑
Sqoop是一个用来将
Hadoop
和关系型数据库中的数据相互转移的工具,可以将一个关系型
数据库
(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
对于某些
NoSQL
数据库它也提供了连接器。Sqoop,类似于其他ETL工具,使用元数据模型来判断数据类型并在数据从数据源转移到Hadoop时确保类型安全的数据处理。Sqoop专为
大数据
批量传输设计,能够分割数据集并创建Hadoop任务来处理每个区块。
示例
编辑
(例如 :
MySQL
,
Oracle
,Postgres等)中的数据导进到
Hadoop
的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
注意事项
编辑
尽管有以上的优点,在使用Sqoop的时候还有一些事情需要注意。首先,对于默认的并行机制要小心。默认情况下的并行意味着Sqoop假设大数据是在分区键范围内均匀分布的。这在当你的源系统是使用一个序列号发生器来生成主键的时候工作得很好。打个比方,当你有一个10个节点的集群,那么工作负载是在这10台
服务器
上平均分配的。但是,如果你的分割键是基于字母数字的,拥有比如以“A”作为开头的键值的数量会是“M”作为开头键值数量的20倍,那么工作负载就会变成从一台服务器倾斜到另一台服务器上。
如果你最担心是性能,那么可以研究下直接加载。直接加载绕过通常的Java数据库连接导入,使用数据库本身提供的直接载入工具,比如
MySQL
的mysqldump。但是有特定数据库的限制。比如,你不能使用MySQL或者PostgreSQL的连接器来导入BLOB和CLOB类型。也没有驱动支持从视图的导入。Oracle直接驱动需要特权来读取类似dba_objects和v_$parameter这样的
元数据
。请查阅你的数据库直连驱动程序局限性的相关文档。
进行增量导入是与效率有关的最受关注的问题,因为Sqoop专门是为大数据集设计的。Sqoop支持增量更新,将新记录添加到最近一次的导出的数据源上,或者指定上次修改的时间戳。
由于Sqoop将数据移入和移出关系型数据库的能力,其对于Hive—
Hadoop
生态系统里的著名的类SQL数据仓库—有专门的支持不足为奇。命令“create-hive-table”可以用来将数据表定义导入到
Hive
。
出现背景
编辑
Apache
框架Hadoop是一个越来越通用的分布式计算环境,主要用来处理大数据。随着云提供商利用这个框架,更多的用户将数据集在Hadoop和传统数据库之间转移,能够帮助数据传输的工具变得更加重要。Apache Sqoop就是这样一款工具,可以在Hadoop和关系型数据库之间转移大量数据。
[1]
声明:
本文内容由网友自发贡献,转载请注明出处:
【wpsshop博客】
推荐阅读
article
2024年最全【
hadoop
】
hbase
的
安装
部署
以及相关
操作
(图文详解)
_
hbase
安装
,
字节跳动...
例如
,
要表示hdfs中
的
’/
hbase
’目录
,
namenode 运行在namenode.example.org
的
9090...
赞
踩
article
Hive Lateral
View
+
explode
详解_lateralview
explode
函...
hive中的
函数
分为3类,UDF
函数
、UDAF
函数
、UDTF
函数
UDF:一进一出 UDAF:聚集
函数
,多进一出,类似于:...
赞
踩
article
【
hive
】
lateral
view
侧视图
_
hive
lateral
view
...
lateral
view
也叫
侧视图
,属于
hive
sql所特有的语法。用来实现类似标准sql中join的操作。join参...
赞
踩
article
Hive
-
行
转
列
和
列
转
行
(转载)
_
hive
transarray
...
Hive
行
转
列
和
列
转
行
表1:cityInfocityname regionname上海 四川北路上海 虹梅路上海 音乐学...
赞
踩
article
hive
MaxCompute
( 原
odps
) 常用函数_
odps
编写
create
sql
fun...
参数使用 需要在任务配置里配置. 配置里 ${yyyyMMdd} 代表业务时间$[yyyyMMdd] 代表运行时间. 参...
赞
踩
article
Hive
的
权限
管理_
hive
权限
管理...
hive
自身支持三种
权限
管理模型,默认情况下是不开启的,这样会导致所有的用户都具有相同的
权限
,且默认都是超级管理员,超管...
赞
踩
article
基于
java
web+
mysql
的
springboot
基于
遗传算法
学校排课系统(
java
+spring...
基于
java
web+
mysql
的
springboot
基于
遗传算法
学校排课系统(
java
+
springboot
+maven...
赞
踩
article
【经验分享】SpringCloud + MyBatis
Plus
配置
MySQL
,
TDengine
...
因为项目中采集工厂中的设备码点的数据量比较大,需要集成
TDengine
时序数据库,所以需要设置双
数据源
。_springc...
赞
踩
article
【
Hadoop
】大
数据
开发
环境
配置
_
hadoop
环境
配置
...
注意:格式化操作只能执行一次,如果格式化的时候失败了,可以修改
配置
文件后再执行格式化,如果格式化成功了就不能再重复执行了...
赞
踩
article
Python
学生
管理系统
+MySQL+
tkinter
+pyinstaller(终章)_
python
+...
针对最近很多人都在面试,我这边也整理了相当多的面试专题资料,也有其他大厂的面经。希望可以帮助到大家。下面的面试题答案都整...
赞
踩
article
MySQL
日期
时间
函数_
mysql
周几...
DATE_ADD(datetime, INTERVAL expr type)datetime -当前
时间
INTERVAL...
赞
踩
article
MySQL
获得当前
日期
时间
函数
_
mysql
获取当前
时间
的
函数
...
MySQL
获得当前
日期
时间
函数
获得当前
日期
+
时间
(date + time)
函数
:now()
mysql
> select...
赞
踩
article
LeetCode
//
MySQL
- 175.
Combine
Two
Tables
...
【代码】
LeetCode
//
MySQL
- 175.
Combine
Two
Tables
。
LeetCode
//My...
赞
踩
article
mysql
ddl
脚本
_
MySQL
在线DDL语句...
原理pt-online-schema-change模拟了
MySQL
内部alter table的方式,但是其操作所更新的是...
赞
踩
article
mysql
online
ddl
和
pt
_
mysql
原生在线
ddl
和
pt
-
osc
原理解析...
一、MySQL
ddl
的问题现状在运维
mysql
数据库时,我们总会对数据表进行
ddl
变更,修改添加字段或者索引,对于my...
赞
踩
article
Springboot计算机
毕业设计
微信
校园生活
小
程序
【附源码】开题+论文+
mysql
+
程序
+部署_毕...
其次,我们将注重用户界面的设计和交互体验的优化,通过简洁明了的界面和操作流程,降低用户的学习成本和使用难度。在美食推荐方...
赞
踩
article
Python
操作大数据使用
Hadoop
_
python
hadoop
...
本文介绍了如何使用
Python
与
Hadoop
框架协作,包括连接
Hadoop
集群、上传下载数据、执行MapReduce作业...
赞
踩
article
使用
canal
实现
数据库
(
MySQL
)和缓存(
Redis
)数据一致_
数据库
与
redis
一致性
问题可使...
使用
canal
实现
MySQL
和
Redis
数据
一致性
解决方案。_
数据库
与
redis
一致性
问题可使用
canal
数...
赞
踩
article
mysql
redis
双写_
Redis
Mysql 双写
一致性
问题...
一:序- 最近在对数据做缓存时候,会涉及到如何保证数据库/
Redis
一致性
问题。- 刚好今天来总结下
一致性
问题 产生...
赞
踩
article
如何保障
MySQL
和
Redis
的数据
一致性
?_等保合规
mysql
redis
...
大家好,我是楼仔!这个问题很早之前我就遇到过,但是一直没有仔细去研究,上个月看了极客的课程,有一篇文章专门有过讲解,刚好...
赞
踩
相关标签
大数据
面试
学习
hive
数据仓库
hadoop
lateral view
侧视图
行转列
列转行
java
mysql
spring boot
经验分享
spring cloud
mybatis
tdengine
分布式