赞
踩
项目上有一套hive集群,需要从测试环境迁移到生产环境,由于HDP3默认启用了事务,所以不能采用distcp直接拷贝数据目录到新集群,而且两套环境网络也不互通。所以决定编写脚本将表数据都export到hdfs目录,下载到运维电脑本地之后,再到新集群上进行import。迁移时发现,源集群30多G的表目录,export出来之后只有几十M了,总让人怀疑有数据丢失。
既然手动触发minor compact 或者major compact 均可以删除旧的base目录,那最后的解决方案就是
找到insert overwrite 有关的表,写定时任务每天手动触发一次合并即可清理旧base目录即可
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。