当前位置:   article > 正文

datax导入到hive的数据量翻倍_datax hive filename

datax hive filename

现象 mysql->hive 或者oracle->hdfs 

源表数据100w  结果hive表数据200w。

这个现象很容易发生,只要你同一时间调度这个json两次。

原因 

"writeMode" : "append", "nonconflict","truncate"
* append,写入前不做任何处理,data-ingestion hdfswriter直接使用filename写入,并保证文件名不冲突。
* truncate 会把filename的文件的删掉
* nonConflict,如果目录下有fileName前缀的文件,直接报错。

那么问题出在哪里呢? 

因为hive的数据底层就是文件,有文件就有数据,这中间并没有像mysql这种插入一条数据这种事务关系。

例如 append 你执行了两次肯定double 

truncate为什么会double呢?

因为datax的执行逻辑是

1.先删除文件

2. 在stageing目录写数据文件

3.最后rename到目标目录。

其中2->3少的有十几秒,多的有几十分钟。

在这段时间内 如果我又执行了一个这个任务,会发生什么呢?

1.删文件,结果前面的都删完了,那我就不删了呗

2. 在stageing目录写数据文件

3.最后rename到目标目录。

2和3步骤重复运行了两次。按道理来说第二次应该把第一次的数据文件删除,可是别人也没跑完,而且还不在同一个目录。怎么删

只好将错就错,到最后就有了两份文件。

所以问题很清楚。解决办法也很简单

1.在我rename的之前我再删一次。

2.在我rename之前我发现突然又有文件了,那我就把自己删了

前者属于删别人,后者属于删自己

个人觉得后者好。

  1. public void post() {
  2. //如果是truncate模式, 会出现double情况,
  3. // if ("truncate".equals(writeMode)){
  4. //之前删了一次 现在又出现了文件
  5. Path[] existFilePaths = hdfsHelper.hdfsDirList(path,fileName);
  6. LOG.info("开始检查已删除的目录,是否有新增文件.....");
  7. if (existFilePaths.length>0){
  8. LOG.info("之前删过一次文件,现在又出现了一次,任务可能存在同时运行两次情况,请仔细检查,开始删除本次任务的数据:{}",storePath);
  9. hdfsHelper.deleteDir(new Path(storePath));
  10. hdfsHelper.closeFileSystem();
  11. throw DataXException.asDataXException(HdfsWriterErrorCode.HDFS_RENAME_FILE_ERROR,"任务同时运行,数据重复");
  12. // hdfsHelper.deleteFiles(existFilePaths);
  13. }
  14. hdfsHelper.renameFile(tmpFiles, endFiles);
  15. }

 

 就是在这里rename之前 判断目录下是否有文件,有文件就删除!! 

 两个任务一起运行 一个成功一个失败

失败日志

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/141160
推荐阅读
相关标签
  

闽ICP备14008679号