赞
踩
根据给定的实验数据,在pyspark中通过编程来计算以下内容
(1)该系一共多少名学生。
(2)该系共开设多少门课程
(3)Tom同学的总成绩平均分是多少。
(4)每名同学的选修的课程门数。
(5)该系DataBase课程共有多少人选修。
(6)各门课程的平均分是多少。
(7)使用累加计算共有多少人选修DataBase这门课。
参考:
(1)
(2)
(3)先导进去文件然后进行统计Tom的数据,并且输出
统计
(4)
(5)
x[1]表示从第二列取出数据。
(6)
(7)
二、编写独立数据去重。(参考)
对于两个文件A和B,编写Spark独立应用程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新文件C。
如图,先在相关目录下建立所需要的txt文件
在同目录下建立一个C.py文件输入上面的代码。
完成后查看之前建立的两个文件
运行C.py文件
在之前建立的A和B的两个文件夹下生成一个文件result1,用cd进入查看,可看到生成一个文件part-00000,用cat查看即可。
三、编写独立的应用程序来实现求平均值的问题
在目录下建立三个题目中需要的txt文件,如下图所示
输入题目中所给的数据,以第一个Algorithm.txt为例
建立完成后,在同目录下建立一个Python文件,代码如下所示(仅供参考)
最后运行,会在目录下生成一个文件夹averge(本人虚拟机是这个),如下图所示。
题目中所需要的chapter4-data01文件,可以私我发;
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。