赞
踩
通过pyspark模块,调用sparksql,读取hdfs目录数据,然后做统计。
参考:pyspark读取hdfs, python sparksql函数
- from pyspark.sql import SQLContext
- sc = SparkContext()
- sqlcontext = SQLContext(sc)
- #format后面为告诉程序读取csv格式,load后面为hdfs地址,hdfs后面跟着hadoop的名字,然后文件目录(这块有点懵,如果报错,跟着报错查修)
- data = sqlcontext.read.format("com.databricks.spark.csv").\
- options(header="true",inferschema="true").\
- load("hdfs://cdsw1.richstone.com/test1/5min.csv")
- data.show(5)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。