当前位置:   article > 正文

阿里 datax工具 impala 数据导入到mongo_datax impala reader

datax impala reader

datax下载地址

1、解压datax

2、具体安装测试datax工具可以在网上进行查询。其对jdk python maven  都有版本的要求。需确认当前系统中的版本。datax安装以及测试方式

3、确认安装无误后,在安装目录下,或者安装目录的bin目录下新建一个json文件,文件名称自定义。新建的json文件格式(datax bin目录下执行python datax.py -r mysqlreader -w musqlwriter 命令可得到json文件的模板)

4、impala 导入输入到mongo 样例

  1. {
  2. "job": {
  3. "content": [
  4. {
  5. //数据来源
  6. "reader": {
  7. "name": "hdfsreader",
  8. "parameter": {
  9. "path": "/user/hive/warehouse/***.db/***/*", // impala 数据库内存储的数据文件,最后的/* 表示将读取该目录下的所有文件,此处如果未修改库内文件的读写权限会报错。
  10. "defaultFS": "hdfs://**.**.**.**:8022", // Hadoop HDFS文件系统namenode节点地址 个人理解 impala 访问地址与端口号
  11. "column": [ // 读取字段列表,type指定源数据的类型,index指定当前列来自于文本第几列(以0开始)
  12. {
  13. "index": 0,
  14. "type": "string"
  15. }
  16. ],
  17. "hadoopConfig": { "dfs.data.transfer.protection": "integrity" }, //配置与Hadoop相关的一些高级参数,例如HA的配置
  18. "haveKerberos": true, //是否有Kerberos认证,默认为false。例如用户配置为true,则配置项kerberosKeytabFilePath和kerberosPrincipal为必填。
  19. "kerberosKeytabFilePath": "/home/keytab/impala.keytab", //Kerberos认证keytab文件的绝对路径。如果haveKerberos为true,则必选。
  20. "kerberosPrincipal": "impala/hadoop01@HADOOP.COM", //Kerberos认证Principal名,如****/hadoopclient@**.*** 。如果haveKerberos为true,则必选。
  21. "fileType": "text", // 数据文件类型 表示TextFile文件格式。还包括ORC、RC、SEQ、CSV和parquet 等格式
  22. "encoding": "UTF-8", //读取文件的编码配置。
  23. "fieldDelimiter": "\u0001" //读取的字段分隔符
  24. }
  25. },
  26. // 数据导出 去处
  27. "writer": {
  28. "name": "mongodbwriter",
  29. "parameter": { // 配置数据库相关信息
  30. "address": [ // mongo 地址 集群
  31. "***.***.***.***:****"
  32. ],
  33. "userName": "kafka", // 链接数据库用户名
  34. "userPassword": "123456", // 链接数据库密码
  35. "dbName": "kafka", //数据库名称
  36. "collectionName": "tydm_0303_z", //数据库表名
  37. "column": [ // mongo 内存储的 字段名与类型
  38. {
  39. "name":"tydm",
  40. "type":"string"
  41. }
  42. ],
  43. "writeMode": {
  44. "isReplace": "false",
  45. "replaceKey": "_id"
  46. }
  47. }
  48. }
  49. }
  50. ],
  51. "setting": {
  52. "speed": {
  53. "channel": "1"
  54. }
  55. }
  56. }
  57. }

执行导入命令 : datax安全路径/bin datax.py  json文件目录

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/141198
推荐阅读
相关标签
  

闽ICP备14008679号