当前位置:   article > 正文

PySpark简明教程 02 pyspark实战 入门例子_pyspark例子

pyspark例子

一个简单的例子带你进入pyspark的大门,对!我们的入门程序不是wordcount,也不是hello world。我们不一样、不一样。

目标:找到股息率大于3%的行业,将结果输出到指定目录。

1 实验文件

文件为深圳股市的股息率统计(截止20210531),下载链接。列出了主要行业的分红情况,从中可以看出哪些是铁公鸡,哪些是现金奶牛。

准备工作,把这个文件上传到HDFS或其他『炫酷』的分布式文件系统。

为什么实验从这里开始,因为在通常情况下,我们要分析的数据都是海量的,都是在分布式文件系统里存着的。

一条命令将本地文件上传到HDFS

  1. hadoop fs -put localfile /yourHdfsPath/0531/
  2. 或者
  3. hadoop fs -put localfile hdfs://host:port/yourHdfsPath/0531/

2 pyspark输入

找到spark的客户端,运行bin目录下的pyspark,打开pyspark的shell命令窗口。后续会介绍pyspark详细启动参数。

df = spark.read.format("csv").option("inferSchema","true").option("header","true").load("/yourHdfsPath/0531/")

备注:spark是内置变量,代表sparks

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/524248
推荐阅读
相关标签
  

闽ICP备14008679号