hive小文件合并机制_Hive小文件合并迁移

作者：知新_RL | 2024-06-16 19:42:49

踩

hive小文件合并

1 需求

Hive数据库内有4张表，每张表有1TB左右数据，按天分区，需要将这4张表的数据迁移到另一个集群。因为两个Hadoop集群都开启了kerberos身份认证，直接进行数据迁移不太好实现，所以需要先将A集群的数据下载到本地，再迁移到B集群本地，最后从B本地上传到B集群的Hive库里。不过有一个问题，因为Hive库表中有大量的小文件，若直接下载上传这些小文件，速度特别的慢，所以得先进行一步小文件合并工作。需求和方案明确后进行具体操作。

2 小文件合并

我们通过SparkSQL进行小文件合并，首先开启spark-shell申请足够多的资源：

spark-shell --master yarn --driver-memory 20g --driver-cores 4 --executor-cores 6 --num-executors 18 -- executor-memory 18g

依次合并Hive表各分区的小文件,将几十万个小文件合并为50个大文件：

sqlContext.read.parquet(“/wa/hive/fms/t_flowdata/time_part=2017-03-20/”).repartition(50).write.parquet(“/apps/hive/fms/t_flowdata/time_part=2017-03-20/”);

sqlContext.read.parquet(“/wa/hive/fms/t_flowdata/time_part=2017-03-21/”).repartition(50).write.parquet(“/apps/hive/fms/t_flowdata/time_part=2017-03-21/”);

……

3 下载上传文件

在A集群

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/知新_RL/article/detail/727957