当前位置:   article > 正文

Spark SQL案例:计算平均分(大数据实训03)_统计每门课程的参考人数和课程平均分spark

统计每门课程的参考人数和课程平均分spark

目录

一、提出任务

二、完成任务

(一)新建Maven项目

(二)添加相关依赖和构建插件

(三)创建日志属性文件

(四)创建计算平均分单例对象

(五)本地运行程序,查看结果


一、提出任务

  • 有多科成绩表,比如python.txt、spark.txt、django.txt,计算每个学生三科平均分

  • Python成绩表 - python.txt

1 张三丰 89
2 李孟达 95
3 唐雨涵 92
4 王晓云 93
5 张晓琳 88
6 佟湘玉 88
7 杨文达 66
8 陈燕文 98
 

Spark成绩表 - spark.txt

1 张三丰 67
2 李孟达 78
3 唐雨涵 89
4 王晓云 75
5 张晓琳 93
6 佟湘玉 70
7 杨文达 87
8 陈燕文 90

 

Django成绩表 - django.txt

1 张三丰 88
2 李孟达 93
3 唐雨涵 97
4 王晓云 87
5 张晓琳 79
6 佟湘玉 89
7 杨文达 93
8 陈燕文 95

 

期望输出结果如下所示:

1 张三丰 81.33
2 李孟达 88.67
3 唐雨涵 92.67
4 王晓云 85.00
5 张晓琳 86.67
6 佟湘玉 82.33
7 杨文达 82.00
8 陈燕文 94.33
 

预备工作:启动集群的HDFS与Spark

 在HDFS上新建/score目录

 在master虚拟机上创建三个成绩文件

 查看三个成绩文件内容

 

二、完成任务

(一)新建Maven项目

  • 设置项目信息(项目名、保存位置、组编号、项目编号)

单击【Finish】按钮

java目录改成scala目录

 

 

(二)添加相关依赖和构建插件

  • pom.xml文件里添加依赖与Maven构建插件
声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号