当前位置:   article > 正文

Spark编程基础(林子雨)第四章实验_spark编程基础林子雨版答案

spark编程基础林子雨版答案

根据给定的实验数据,在pyspark中通过编程来计算以下内容

(1)该系一共多少名学生。

(2)该系共开设多少门课程

(3)Tom同学的总成绩平均分是多少。

(4)每名同学的选修的课程门数。

(5)该系DataBase课程共有多少人选修。

(6)各门课程的平均分是多少。

(7)使用累加计算共有多少人选修DataBase这门课。

参考:

(1)

(2)

 

(3)先导进去文件然后进行统计Tom的数据,并且输出

统计

 (4)

(5)

 x[1]表示从第二列取出数据。

(6)

 

(7)

 

 二、编写独立数据去重。(参考)

对于两个文件A和B,编写Spark独立应用程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新文件C。

如图,先在相关目录下建立所需要的txt文件

 

在同目录下建立一个C.py文件输入上面的代码。

 完成后查看之前建立的两个文件

 运行C.py文件

在之前建立的A和B的两个文件夹下生成一个文件result1,用cd进入查看,可看到生成一个文件part-00000,用cat查看即可。

 

三、编写独立的应用程序来实现求平均值的问题

 在目录下建立三个题目中需要的txt文件,如下图所示

 输入题目中所给的数据,以第一个Algorithm.txt为例

建立完成后,在同目录下建立一个Python文件,代码如下所示(仅供参考)

最后运行,会在目录下生成一个文件夹averge(本人虚拟机是这个),如下图所示。

 题目中所需要的chapter4-data01文件,可以私我发;

 

 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/452585
推荐阅读
相关标签
  

闽ICP备14008679号