当前位置:   article > 正文

Sqoop从mysql导入数据至HDFS操作(sqoop初级)_sqoop导入数据到hdfs

sqoop导入数据到hdfs

 

后面文章打算用flume + kafka + SlipStream流处理结合起来做一个黑名单访问实时监测数据案例,所以就不单独介绍每个组件具体的用法了,直接在实战中让大家直观感受下在生产环境中这些组件是如何配套使用的。由于Sqoop比较独立,所以它的实践还是单独拿出来在本篇博文中讲解好了。

 

MySQL端操作(待导出的数据库)

1、创建用于导出数据用户并赋予权限。

以root用户登录mysql集群第一台节点。

mysql -uroot -p{$passwd} -P3316 -h{$ipaddr}

 

在root用户权限下为集群中每一台mysql服务器创建一sqoop用户sqoopuser ,后续导出数据操作即是用sqoopuser用户进行操作。(其实生产环境中是从备库导出)

  1. create user 'sqoopuser'@'{$ipaddr1}' identified by '{$passwd}';
  2. create user 'sqoopuser'@'{$ipaddr2}' identified by '{$passwd}';
  3. create user 'sqoopuser'@'{$ipaddr3}' identified by '{$passwd}';

 

赋予sqoopuser权限。

  1. grant all privileges on *.* to sqoopuser@'{$ipaddr1}';
  2. grant all privileges on *.* to sqoopuser@'{$ipaddr2}';
  3. grant all privileges on *.* to sqoopuser@'{$ipaddr3}';
  4. flush privileges;

 

2、创建表,写入数据,以供后续导出

创建数据库以及数据表,并写入数据:

  1. # 创建数据库并切换(此库中的数据即为后续要导入到HDFS上的数据)
  2. create database db_jbw;
  3. use db_jbw;
  4. create table tbl_sqoop(
  5. id varchar(11),
  6. name varchar(11),
  7. age int,
  8. sex varchar(11)
  9. );
  10. insert into tbl_sqoop value('0001', 'jbw', 23, 'man');
  11. insert into tbl_sqoop value('0002', '33', 18, 'girl');
  12. insert into tbl_sqoop value('0003', 'jack', 23, 'woman');
  13. insert into tbl_sqoop value('0004', '233', 23, 'woman');
  14. insert into tbl_sqoop value('0005', 'zhansan', 23, 'man');
  15. insert into tbl_sqoop value('0006', 'lisi', 23, 'man');
  16. insert into tbl_sqoop value('0007', 'wangermazi', 23, 'man');
  17. insert into tbl_sqoop value('0008', 'jbw2', 23, 'man');
  18. insert into tbl_sqoop value('0009', 'jbw3', 23, 'man');
  19. insert into tbl_sqoop value('0010', 'jbw4', 23, 'man');

 

数据如下:

 

3、拷贝数据库连接驱动

拷贝mysql-connector-java-5.1.38-bin.jar驱动到/sqoop/lib目录下:

  1. cp /home/mysql-connector-java-5.1.38-bin.jar /sqoop/lib
  2. chmod -R 777 /sqoop/lib/mysql-connector-java-5.1.38-bin.jar

 

4、利用Sqoop开始导出 

sqoop list命令:

  1. # 列出所有数据库
  2. sqoop list-databases --username sqoopuser --password 123456 --connect jdbc:mysql://{$yourDBIpAddr}:3316/
  3. # 列出指定数据库下的所有表
  4. sqoop list-tables --username sqoopuser --password 123456 --connect jdbc:mysql://{$yourDBIpAddr}:3316/{$yourTableName}

sqoop import命令:

sqoop import --username sqoopuser --password 123456 --connect jdbc:mysql://{$yourDBIpAddr}:3316/{$yourDBName} --query "select * from {$yourTableName} where \$CONDITIONS" --target-dir /tmp/jbw/sqoop_data/ --fields-terminated-by ',' --split-by id -m 1

查看导入成功后的HDFS对应目录上的文件(此HDFS目录事先不需要自己建立,Sqoop会在导入的过程中自行建立) 

hadoop fs -ls /tmp/jbw/sqoop_data

最后我们基于HDFS建立数据外表即可,后续根据业务需要建立内表并从外表中导入所需数据即可!

 

 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/519554
推荐阅读
相关标签
  

闽ICP备14008679号