当前位置:   article > 正文

pyspark读取csv和保存csv文件_pyspark 保存csv

pyspark 保存csv

1、读取csv文件为dataframe格式

data = spark.read
    .option("inferSchema","true")#自动推导数据类型
    .option("header","true")#读取列名
    .csv("/user/root/image.csv")#文件路径
  • 1
  • 2
  • 3
  • 4

2、dataframe数据保存为csv文件

data.coalesce(1)#文件分区设置为1
    .write.mode("overwrite")#保存方式为覆盖
    .option("mapreduce.fileoutputcommitter.marksuccessfuljobs","false")#保存csv文件时去除success文件
    .option("header","true")#保存表列名
    .option("delimiter", "\001")#指定分隔符
    .csv("/user/root/data")#保存文件的路径
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/609186
推荐阅读
相关标签
  

闽ICP备14008679号