赞
踩
RDD编程初级实践
你好! 这是你第一次使用 RDD编程 所展示的教学页。如果你想学习如何使用RDD编程, 可以仔细阅读这篇入门文章,了解一下RDD的基本语法知识。
通过了解和学习Spark运行架构和RDD设计原理,我们可以实现如下三个实验,帮助你更好地使用它编程:
一、 pyspark交互式编程 ;
二、 编写独立应用程序实现数据去重 ;
三、 编写独立应用程序实现求平均值问题 。
通过以上三个实验,我们能达到下面两个目标:
我们使用Ubuntu16.04版本的操作系统,使用Spark 2.1.0版本,使用Python 3.5.2版本。
请到教材官网的“下载专区”的“数据集”中下载chapter4-dat.txt,该数据集包含了某大学计算机系的成绩,数据格式如下所示:
Tom,DataBase,80
Tom,Algorithm,50
Tom,DataStructure,60
Jim,DataBase,90
Jim,Algorithm,60
Jim,DataStructure,80
……
教材官网的“下载专区”链接: link.
-请根据给定的实验数据,在pyspark中通过编程来计算以下内容:
lines = sc.textFile("file:///usr/local/sparksqldata/data.txt")
res = lines.map(lambda x:x.split(",")).map(lambda x:x[0])
sum = res.distinct()
sum.count()
结果如下:
2. 该系共开设了多少门课程;
代码如下:
lines = sc.textFile("file:///usr/local/sparksqldata/data.txt")
res = lines.map(lambda x:x.split(",")).map(lambda x:x[1])
sum = res.distinct()
sum.count()
结果如下:
lines = sc.textFile(‘file:///usr/local/sparksqldata/data.txt’)
res = lines.map(lambda x:x.split(‘,’)).filter(lambda x:x[0]==’Tom’)
res.foreach
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。