当前位置:   article > 正文

sparksql读hdfs数据_sparksql显示hdfs目录

sparksql显示hdfs目录

通过pyspark模块,调用sparksql,读取hdfs目录数据,然后做统计。

参考:pyspark读取hdfs, python sparksql函数

  1. from pyspark.sql import SQLContext
  2. sc = SparkContext()
  3. sqlcontext = SQLContext(sc)
  4. #format后面为告诉程序读取csv格式,load后面为hdfs地址,hdfs后面跟着hadoop的名字,然后文件目录(这块有点懵,如果报错,跟着报错查修)
  5. data = sqlcontext.read.format("com.databricks.spark.csv").\
  6. options(header="true",inferschema="true").\
  7. load("hdfs://cdsw1.richstone.com/test1/5min.csv")
  8. data.show(5)

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/662990
推荐阅读
相关标签
  

闽ICP备14008679号