赞
踩
一个简单的例子带你进入pyspark的大门,对!我们的入门程序不是wordcount,也不是hello world。我们不一样、不一样。
目标:找到股息率大于3%的行业,将结果输出到指定目录。
文件为深圳股市的股息率统计(截止20210531),下载链接。列出了主要行业的分红情况,从中可以看出哪些是铁公鸡,哪些是现金奶牛。
准备工作,把这个文件上传到HDFS或其他『炫酷』的分布式文件系统。
为什么实验从这里开始,因为在通常情况下,我们要分析的数据都是海量的,都是在分布式文件系统里存着的。
一条命令将本地文件上传到HDFS
- hadoop fs -put localfile /yourHdfsPath/0531/
- 或者
- hadoop fs -put localfile hdfs://host:port/yourHdfsPath/0531/
找到spark的客户端,运行bin目录下的pyspark,打开pyspark的shell命令窗口。后续会介绍pyspark详细启动参数。
df = spark.read.format("csv").option("inferSchema","true").option("header","true").load("/yourHdfsPath/0531/")
备注:spark是内置变量,代表sparks
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。