赞
踩
其实sqoop中相对来说最有意思的就是–split-by了,咱们来唠唠
假设有一张表test,sqoop命令中–split-by ‘id’,-m 10,会发生怎样奇特的事情。首先呢,sqoop会去查表的元数据等等,重点说一下sqoop是如何根据–split-by进行分区的。首先sqoop会向关系型数据库比如mysql发送一个命令:select max(id),min(id) from test。然后会把max、min之间的区间平均分为10分,最后10个并行的map去找数据库,导数据就正式开始啦!66666~
注意点:
1.–split-by对非数字类型的字段支持不好。一般用于主键及数字类型的字段
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。