当前位置:   article > 正文

将csv转为parquet_linux中如何将csv文件保存为parquet文件

linux中如何将csv文件保存为parquet文件
环境
  • centos 6.5
  • CHD 5.15
  • spark 1

csv内容

$ cat test.txt
1|2|3|test
2|4|6|wwww
  • 1
  • 2
  • 3

使用pyspark

from pyspark import SparkContext,SparkConf
from pyspark.sql import SQLContext
from pyspark.sql.types import *

if __name__ == "__main__":
    sc = SparkContext(appName="CSV2Parquet")
    sqlContext = SQLContext(sc)
    schema = StructType([
            StructField("id", StringType(), True),
            StructField("num1", StringType(), True),
            StructField("num2", StringType(), True),
            StructField("string", StringType(), True),
		])
    rdd = sc.textFile("/var/tmp/test.txt").map(lambda line: line.split("|"))
    df = sqlContext.createDataFrame(rdd, schema)
    df.write.parquet('/var/tmp/test.parq')
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16

CDH提供parquet-tools命令查看parquet文件

parquet-tools cat sample.parq
parquet-tools head -n 2 sample.parq
parquet-tools schema sample.parq
parquet-tools meta sample.parq
parquet-tools dump
  • 1
  • 2
  • 3
  • 4
  • 5
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/516028
推荐阅读
相关标签
  

闽ICP备14008679号