当前位置:   article > 正文

spark读取、保存.csv文件、并指定编码格式

spark读取、保存.csv文件、并指定编码格式

一、用spark实现读取csv文件

核心代码:

  1. val spark = SparkSession
  2. .builder()
  3. .master("local[*]")
  4. .appName("app")
  5. .getOrCreate()
  6. //读取文件
  7. //方式一:
  8. val srcDF = spark
  9. .read
  10. .format("csv")
  11. .option("header","true")
  12. .option("multiLine","true")
  13. .option("encoding","gbk") //utf-8
  14. .load("file:///C:\\1.csv")
  15. //方式二:
  16. val df = spark
  17. .read
  18. .option("header","true")
  19. .option("multiLine","true")
  20. .option("encoding","gbk") //utf-8
  21. .csv("/user/hadoop/test.csv")
  22. spark.stop()

关键参数:

format:指定读取csv文件。

header:是否指定头部行作为schema

multiLine:在单元格中可能因为字数多有换行,但是不指定这个参数,处理数据时可能会报错。指定这个参数为true,可以将换行的单元格合并为1行。

encoding:指定编码格式如gbk或utf-8

如下表对option里面的参数,进行介绍:

参数解释
header默认是false,将第一行作为列名
encoding默认是uft-8通过给定的编码类型进行解码
sep默认是, 指定单个字符分割字段和值
inferSchemainferSchema(默认为false`):从数据自动推断输入模式。 *需要对数据进行一次额外的传递
multiLine默认是false,解析一条记录,该记录可能跨越多行
inferSchemainferSchema(默认为false`):从数据自动推断输入模式。 *需要对数据进行一次额外的传递。如:option("inferSchema", true.toString) //这是自动推断属性列的数据类型
nullValue默认是空的字符串,设置null值的字符串表示形式。从2.0.1开始,这适用于所有支持的类型,包括字符串类型
emptyValue默认是空字符串,设置一个空值的字符串表示形式

二、写出csv文件

核心代码:

  1. resultDF.write.mode("Append").csv("C:\\Users\\Desktop\\123")
  2. resultDF.writer.mode("overwrite").option("header","ture").option("encoding","utf-8").csv("/user/hadoop/data")

mode参数设置org.apache.spark.sql.DataFrameWriter源码:

  1. /**
  2. * Specifies the behavior when data or table already exists. Options include:
  3. * <ul>
  4. * <li>`overwrite`: overwrite the existing data.</li>
  5. * <li>`append`: append the data.</li>
  6. * <li>`ignore`: ignore the operation (i.e. no-op).</li>
  7. * <li>`error` or `errorifexists`: default option, throw an exception at runtime.</li>
  8. * </ul>
  9. *
  10. * @since 1.4.0
  11. */
  12. def mode(saveMode: String): DataFrameWriter[T] = {
  13. this.mode = saveMode.toLowerCase(Locale.ROOT) match {
  14. case "overwrite" => SaveMode.Overwrite
  15. case "append" => SaveMode.Append
  16. case "ignore" => SaveMode.Ignore
  17. case "error" | "errorifexists" | "default" => SaveMode.ErrorIfExists
  18. case _ => throw new IllegalArgumentException(s"Unknown save mode: $saveMode. " +
  19. "Accepted save modes are 'overwrite', 'append', 'ignore', 'error', 'errorifexists'.")
  20. }
  21. this
  22. }


    
    

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/609180
推荐阅读
相关标签
  

闽ICP备14008679号