序:
本文首先介绍DataX使用(编写配置文件的方式)之MongoDB中的数据导出到HDFS上的一些注意事项,datax安装没有什么坑,所以本文不对此进行详细介绍,详细安装过程请自行查看官网。
一、datax的基本使用
1、datax的目录结构
目录说明:
backup:本人自己创建的备份目录
,因为后续使用过程中涉及到更改源码,将原生的jar包备份到此文件夹中
bin:datax的命令
conf:datax的配置文件
job:任务编写的json配置文件存放的位置,官方的demo也在这个目录下
log:运行日志爱
plugin:reader/writer的源码包,后续可以自己更改源码上传替换
script:没啥用
tmp:临时目录
2、查看任务模板
python ./datax.py -r mongodbreader -w hdfswriter
- {
- "job": {
- "content": [
- {
- "reader": {
- "name": "mongodbreader",
- "parameter": {
- "address": [],
- "collectionName": "",
- "column": [],
- "dbName": "",
- "userName": "",
- "userPassword": ""
- }
- },
- "writer": {
- "name": "hdfswriter",
- "parameter": {
- "column": [],
- "compress": "",
- "defaultFS": "",
- "fieldDelimiter": "",
- "fileName": "",
- "fileType": "",
- "path": "",
- "writeMode": ""
- }
- }
- }
- ],
- "setting": {
- "speed": {
- "channel": ""
- }
- }
- }
- }
按照模板填写对应的服务器地址,库,表名,文件名,地址,并行度等即可使用
-----------------------写不动了,困了,想起来再接着写---------------------------