当前位置:   article > 正文

hadoop集群数据迁移

hadoop数据迁移完之后 如何保证数据集群可用
hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar
如果想在两个运行着不同版本HDFS的集群上利用distcp,使用hdfs协议是会失败的,因为RPC系统是不兼容的。想要弥补这种情况,可以使用基于HTTP的HFTP文件系统从源中进行读取。这个[color=red]作业必须运行在目标集群[/color]上,使得HDFS RPC版本是兼容的。
例如:hadoop distcp hftp://namenode1:50070/foo hdfs://namenode2/bar

cdh如下异常:
Caused by: java.io.IOException: Check-sum mismatch between hftp://ip:50070/flume/CC/normal/2014-06-20/FlumeData.1403222404996.snappy and hdfs://ip:8020/flume/.distcp.tmp.attempt_1404355744480_0004_m_000015_2.
at org.apache.hadoop.tools.mapred.RetriableFileCopyCommand.compareCheckSums(RetriableFileCopyCommand.java:190)
at org.apache.hadoop.tools.mapred.RetriableFileCopyCommand.doCopy(RetriableFileCopyCommand.java:125)
at org.apache.hadoop.tools.mapred.RetriableFileCopyCommand.doExecute(RetriableFileCopyCommand.java:95)
at org.apache.hadoop.tools.util.RetriableCommand.execute(RetriableCommand.java:87)
... 11 more
解决方法:
hdfs增加如此参数
<property>
<name>dfs.checksum.type</name>
<value>CRC32</value>
</property>

另外若目标集群若配置了安全机制,例如kerberos,distcp运行失败,暂时解决办法是禁用安全机制,先将数据迁移。
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/627913
推荐阅读
相关标签
  

闽ICP备14008679号