当前位置:   article > 正文

RDD编程初级实践_1. pyspark 交互式编程 请到本教程官网的“下载专区”的“数据集”中下载 chapter

1. pyspark 交互式编程 请到本教程官网的“下载专区”的“数据集”中下载 chapter

RDD编程初级实践

RDD编程初级实践

你好! 这是你第一次使用 RDD编程 所展示的教学页。如果你想学习如何使用RDD编程, 可以仔细阅读这篇入门文章,了解一下RDD的基本语法知识。

实践准备

通过了解和学习Spark运行架构和RDD设计原理,我们可以实现如下三个实验,帮助你更好地使用它编程:

一、 pyspark交互式编程

二、 编写独立应用程序实现数据去重

三、 编写独立应用程序实现求平均值问题

通过以上三个实验,我们能达到下面两个目标:

  • 熟悉Spark的RDD基本操作及键值对操作
  • 熟悉使用RDD编程解决实际具体问题的方法

我们使用Ubuntu16.04版本的操作系统,使用Spark 2.1.0版本,使用Python 3.5.2版本。
版本描述

一、 pyspark交互式编程

请到教材官网的“下载专区”的“数据集”中下载chapter4-dat.txt,该数据集包含了某大学计算机系的成绩,数据格式如下所示:

Tom,DataBase,80
Tom,Algorithm,50
Tom,DataStructure,60
Jim,DataBase,90
Jim,Algorithm,60
Jim,DataStructure,80
……

教材官网的“下载专区”链接: link.

-请根据给定的实验数据,在pyspark中通过编程来计算以下内容:

  1. 该系总共有多少学生;
    代码如下:
lines = sc.textFile("file:///usr/local/sparksqldata/data.txt")
res = lines.map(lambda x:x.split(",")).map(lambda x:x[0])
sum = res.distinct()
sum.count()
  • 1
  • 2
  • 3
  • 4

结果如下:
第1题
2. 该系共开设了多少门课程;
代码如下:

lines = sc.textFile("file:///usr/local/sparksqldata/data.txt")
res = lines.map(lambda x:x.split(",")).map(lambda x:x[1])
sum = res.distinct()
sum.count() 
  • 1
  • 2
  • 3
  • 4

结果如下:
第2题

  1. Tom同学的总成绩平均分是多少;
    代码如下:
lines = sc.textFile(file:///usr/local/sparksqldata/data.txt’)
res = lines.map(lambda x:x.split(,)).filter(lambda x:x[0]==’Tom’)
res.foreach
  • 1
  • 2
本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号