赞
踩
1 需求
Hive数据库内有4张表,每张表有1TB左右数据,按天分区,需要将这4张表的数据迁移到另一个集群。因为两个Hadoop集群都开启了kerberos身份认证,直接进行数据迁移不太好实现,所以需要先将A集群的数据下载到本地,再迁移到B集群本地,最后从B本地上传到B集群的Hive库里。不过有一个问题,因为Hive库表中有大量的小文件,若直接下载上传这些小文件,速度特别的慢,所以得先进行一步小文件合并工作。需求和方案明确后进行具体操作。
2 小文件合并
我们通过SparkSQL进行小文件合并,首先开启spark-shell申请足够多的资源:
spark-shell --master yarn --driver-memory 20g --driver-cores 4 --executor-cores 6 --num-executors 18 -- executor-memory 18g
依次合并Hive表各分区的小文件,将几十万个小文件合并为50个大文件:
sqlContext.read.parquet(“/wa/hive/fms/t_flowdata/time_part=2017-03-20/”).repartition(50).write.parquet(“/apps/hive/fms/t_flowdata/time_part=2017-03-20/”);
sqlContext.read.parquet(“/wa/hive/fms/t_flowdata/time_part=2017-03-21/”).repartition(50).write.parquet(“/apps/hive/fms/t_flowdata/time_part=2017-03-21/”);
……
3 下载上传文件
在A集群
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。