赞
踩
1、解压datax包
2、具体安装测试datax工具可以在网上进行查询。其对jdk python maven 都有版本的要求。需确认当前系统中的版本。datax安装以及测试方式
3、确认安装无误后,在安装目录下,或者安装目录的bin目录下新建一个json文件,文件名称自定义。新建的json文件格式(datax bin目录下执行python datax.py -r mysqlreader -w musqlwriter 命令可得到json文件的模板)
4、impala 导入输入到mongo 样例
- {
- "job": {
- "content": [
- {
- //数据来源
- "reader": {
- "name": "hdfsreader",
- "parameter": {
- "path": "/user/hive/warehouse/***.db/***/*", // impala 数据库内存储的数据文件,最后的/* 表示将读取该目录下的所有文件,此处如果未修改库内文件的读写权限会报错。
- "defaultFS": "hdfs://**.**.**.**:8022", // Hadoop HDFS文件系统namenode节点地址 个人理解 impala 访问地址与端口号
- "column": [ // 读取字段列表,type指定源数据的类型,index指定当前列来自于文本第几列(以0开始)
- {
- "index": 0,
- "type": "string"
- }
- ],
- "hadoopConfig": { "dfs.data.transfer.protection": "integrity" }, //配置与Hadoop相关的一些高级参数,例如HA的配置
- "haveKerberos": true, //是否有Kerberos认证,默认为false。例如用户配置为true,则配置项kerberosKeytabFilePath和kerberosPrincipal为必填。
- "kerberosKeytabFilePath": "/home/keytab/impala.keytab", //Kerberos认证keytab文件的绝对路径。如果haveKerberos为true,则必选。
- "kerberosPrincipal": "impala/hadoop01@HADOOP.COM", //Kerberos认证Principal名,如****/hadoopclient@**.*** 。如果haveKerberos为true,则必选。
- "fileType": "text", // 数据文件类型 表示TextFile文件格式。还包括ORC、RC、SEQ、CSV和parquet 等格式
- "encoding": "UTF-8", //读取文件的编码配置。
- "fieldDelimiter": "\u0001" //读取的字段分隔符
- }
-
- },
-
- // 数据导出 去处
- "writer": {
- "name": "mongodbwriter",
- "parameter": { // 配置数据库相关信息
- "address": [ // mongo 地址 集群
- "***.***.***.***:****"
- ],
- "userName": "kafka", // 链接数据库用户名
- "userPassword": "123456", // 链接数据库密码
- "dbName": "kafka", //数据库名称
- "collectionName": "tydm_0303_z", //数据库表名
- "column": [ // mongo 内存储的 字段名与类型
- {
- "name":"tydm",
- "type":"string"
- }
-
- ],
- "writeMode": {
- "isReplace": "false",
- "replaceKey": "_id"
- }
- }
- }
- }
- ],
- "setting": {
- "speed": {
- "channel": "1"
- }
- }
- }
- }
执行导入命令 : datax安全路径/bin datax.py json文件目录
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。