当前位置:   article > 正文

Spark分区表插入数据清空分区数据问题的解决办法

Spark分区表插入数据清空分区数据问题的解决办法

原本希望通过Spark的DataFrame的saveAsTable自动创建
然后再通过insertInto或者别的方式插入分区,结果发现这些方法都不可行,每一次运行会自动truncate清空原来的数据。哪怕是加了条件判断,通过createOrReplaceGlobalTempView的方式去执行Spark SQL的插入仍然是一样的效果。
如下面所示:

val appViewName = s"${appTableName}_tmp_$partitionKey"
  if (!spark.catalog.tableExists(dbName, appTableName)) {
    SDLogger.info("APP一级分类表不存在,用saveAsTable方式自动创建")
    pivoted_app
      .write
      .mode("overwrite")
      .partitionBy("dataspan")
      .saveAsTable(appTableName)
  } else {
    pivoted_app.createOrReplaceGlobalTempView(appViewName)
    spark.sql(s"INSERT OVERWRITE TABLE $appTableName PARTITION(dataspan) SELECT * FROM global_temp.$appViewName")
    spark.catalog.dropGlobalTempView(appViewName)
  }
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13

这个看来是Spark的一个bug,不过我用的Spark2.3,后续的版本是否修复这个问题就不得而知了,通过日志大致能看出在插入数据的时候,使用的parquet格式,首先将数据存储到hdfs的临时目录下,这个过程中应该是产生了bug,将数据清空了,导致每一次运行都只能得到新的表。

只能是提前创建好表

 CREATE TABLE test
 (
   id bigint,
   feature float
  )
PARTITIONED BY 
(
dataspan STRING
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '|'
LINES TERMINATED BY '\n'
NULL DEFINED AS ''
STORED AS TEXTFILE;
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13

我原本想着懒得去创建了,想自动创建一个,结果还是不行。由于这个分区的列非常多,手动创建其实也是很麻烦的,我先跑了一个测试数据,照着日志打印出来的Schema创建即可。类似于如下:

optional fixed_len_byte_array(16) app_11uyp (DECIMAL(38,6));
optional fixed_len_byte_array(16) app_x72t7 (DECIMAL(38,6));

然后再去插入

pivoted_app.createOrReplaceGlobalTempView(appViewName)
spark.sql(s"INSERT OVERWRITE TABLE $appTableName PARTITION(dataspan) SELECT * FROM global_temp.$appViewName")
spark.catalog.dropGlobalTempView(appViewName)
  • 1
  • 2
  • 3

还有一种方法是提前创建外部表,把数据存储到hdfs目录下,然后去挂载数据,但是这个方法略微繁琐,不如直接插入分区方便一些。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/342205
推荐阅读
相关标签
  

闽ICP备14008679号