当前位置:   article > 正文

hadoop学习---sqoop学习记录

hadoop学习---sqoop学习记录

在本地数据库创建数据库表:

  1. create database sqoop_test default character set utf8;
  2. use sqoop_test;
  3. CREATE TABLE `emp` (
  4. `EMPNO` int(4) NOT NULL,
  5. `ENAME` varchar(10),
  6. `JOB` varchar(9),
  7. `MGR` int(4),
  8. `HIREDATE` date,
  9. `SAL` int(7),
  10. `COMM` int(7),
  11. `DEPTNO` int(2),
  12. PRIMARY KEY (`EMPNO`)
  13. ) ENGINE=InnoDB DEFAULT CHARSET=utf8;
  1. INSERT INTO `emp` VALUES ('7369', 'SMITH', 'CLERK', '7902', '1980-12-17', '800', null, '20');
  2. INSERT INTO `emp` VALUES ('7499', 'ALLEN', 'SALESMAN', '7698', '1981-02-20', '1600', '300', '30');
  3. INSERT INTO `emp` VALUES ('7521', 'WARD', 'SALESMAN', '7698', '1981-02-22', '1250', '500', '30');
  4. INSERT INTO `emp` VALUES ('7566', 'JONES', 'MANAGER', '7839', '1981-04-02', '2975', null, '20');
  5. INSERT INTO `emp` VALUES ('7654', 'MARTIN', 'SALESMAN', '7698', '1981-09-28', '1250', '1400', '30');
  6. INSERT INTO `emp` VALUES ('7698', 'BLAKE', 'MANAGER', '7839', '1981-05-01', '2850', null, '30');
  7. INSERT INTO `emp` VALUES ('7782', 'CLARK', 'MANAGER', '7839', '1981-06-09', '2450', null, '10');
  8. INSERT INTO `emp` VALUES ('7788', 'SCOTT', 'ANALYST', '7566', '1987-04-19', '3000', null, '20');
  9. INSERT INTO `emp` VALUES ('7839', 'KING', 'PRESIDENT', null, '1981-11-17', '5000', null, '10');
  10. INSERT INTO `emp` VALUES ('7844', 'TURNER', 'SALESMAN','7698', '1981-09-08', '1500', '0', '30');
  11. INSERT INTO `emp` VALUES ('7876', 'ADAMS', 'CLERK', '7788', '1987-05-23', '1100', null, '20');
  12. INSERT INTO `emp` VALUES ('7900', 'JAMES', 'CLERK', '7698', '1981-12-03', '950', null, '30');
  13. INSERT INTO `emp` VALUES ('7902', 'FORD', 'ANALYST', '7566', '1981-12-03', '3000', null, '20');
  14. INSERT INTO `emp` VALUES ('7934', 'MILLER', 'CLERK', '7782', '1982-01-23', '1300', null, '10');

命令:

MySQL--》HDFS

  1. sqoop import --connect jdbc:mysql://192.168.88.101:3306/sqoop_test\
  2. --username root \
  3. --password root \
  4. --query 'select empno,mgr,job from emp where empno>7800 and $CONDITIONS' \
  5. --target-dir /sqoopdata/emp --delete-target-dir -split-by empno -m 2

 1. 导出时,mysql中的表必须提前创建。
2. 导出时,字段之间的切分符号默认是逗号。如果hdfs上的文件不是逗号分隔符,需要使用--fields-terminated-by或--input-fields-terminated-by参数指定分隔符
3. 导出时,是按照hdfs上文件从左到右的顺序给mysql表的字段赋值
4. 导出时,mysql的表的字段数与hdfs上的列数可以不相同
5. 导出时,字段类型要一致
6. 带有主键约束的mysql表,要注意导出的数据的主键约束的情况,不能重复 
7. 使用--columns给mysql中的某些字段赋值时,没有包含在参数中的字段要么有默认值,要么不能设置not null
8. 在sqoop1.4.7中,hdfs上的字符串'null'是可以转成mysql中字符串类型字段的null值,
                  也可以转成mysql中非字符串类型字段的null值。

Sqoop导入原理:
Sqoop默认是并行的从数据库源导入数据。您可以使用-m或--num-mappers参数指定用于执行导入的map任务(并行进程)的数量。每个参数都取一个整数值,该整数值对应于要使用的并行度。默认情况下,使用四个任务。一些数据库可以通过将这个值增加到8或16来改善性能。


默认情况下,Sqoop将标识表中的主键id列用作拆分列。从数据库中检索分割列的高值和低值,map任务操作整个范围的大小均匀的组件。譬如ID的范围是0-800,那么Sqoop默认运行4个进程,通过执行ISELECTMIN(id),MAX(id) FROM emp找出id的范围,然后把4个任务的id设置范围是(0-200),(200-400)(400-600).(600-800)


但是当一个表没有主键时,上面的切分就无法进行,Sqoop导入时就会出错,这时候可以通过-m把mapper的数量设为1,只有一个Mapper在运行,这时候就不需要切分,也可以避免主键不存在时候报错的问题.或者还有个办法就是手工指定要拆分的列,通过--split-by来指定

 

 MySQL--》Hive

  1. sqoop import --connect jdbc:mysql://node1:3306/sqoop_test \
  2. --username root --password root \
  3. --table emp \
  4. --hive-import \
  5. --hive-overwrite \
  6. -- hive-table 'emp3' \
  7. -- hive-database db2

HDFS--》MySQL

  1. sqoop export --connect jdbc:mysql://192.168.88.101:3306/sqoop_test \
  2. --username root \
  3. --password root \
  4. --table emp_1 \
  5. --export-dir /sqoop/hdfs-emp/part-m-00000 \
  6. --input-fields-terminated-by '\t' \
  7. --input-null-string '\\N' \
  8. --input-null-non-string '0' -m 1
  1. sqoop export \
  2. --connect jdbc:mysql://192.168.88.101:3306/sqoop_test \
  3. --username root \
  4. --password root \
  5. --table emp_4 \
  6. --export-dir /test11.txt \
  7. --input-fields-terminated-by ',' \
  8. --input-null-string '\\N' \
  9. --input-null-non-string '0' \
  10. -m 1

在Sqoop中,直接使用通配符(如*)在--export-dir后面来指定多个文件进行导出是不被支持的。Sqoop期望一个确切的目录路径,它会自动处理该目录下的所有part文件(由MapReduce任务生成)。因此,如果你想从一个目录下导出所有文件到MySQL表,你应该只指定到目录层级,而不是尝试包含通配符。

不过,如果你确实需要从一个目录下包含多个文件的场景下导出数据,通常的做法是先用Hadoop的文件系统操作命令(如hadoop fs -cathadoop fs -getmerge)来合并这些文件成一个,然后再用Sqoop进行导出。但请注意,这样做的前提是这些文件的结构和内容必须是一致的,即它们应该都是同一份数据的切片或者是完全相同结构的数据。

一个简化的流程可以是:

  1. 合并HDFS目录下的文件: 可以使用Hadoop的getmerge工具将多个part文件合并成一个临时文件。例如:

    1hadoop fs -getmerge /sqoop/hdfs-emp/part-m-* /tmp/merged_emp_data.txt

    这里假设你的part文件名为part-m-00000, part-m-00001, 等等。

  2. 使用Sqoop导出合并后的文件: 然后你可以使用这个合并后的文件作为--export-dir的输入。

    1. 1sqoop export \
    2. 2 --connect jdbc:mysql://192.168.88.101:3306/sqoop_test \
    3. 3 --username root \
    4. 4 --password root \
    5. 5 --table emp_1 \
    6. 6 --export-dir file:///tmp/merged_emp_data.txt \
    7. 7 --input-fields-terminated-by '\t' \
    8. 8 --input-null-string '\\N' \
    9. 9 --input-null-non-string '0' \
    10. 10 -m 1

    注意这里--export-dir现在指向的是本地文件系统上的合并文件路径。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/529517
推荐阅读
相关标签
  

闽ICP备14008679号