当前位置:   article > 正文

计算机毕业设计python+spark知识图谱音乐推荐系统 音乐数据分析可视化大屏 音乐爬虫 LSTM情感分析 大数据毕设 深度学习 机器学习

计算机毕业设计python+spark知识图谱音乐推荐系统 音乐数据分析可视化大屏 音乐爬虫 LSTM情感分析 大数据毕设 深度学习 机器学习

课题名称

基于Spark的音乐推荐与数据分析系统

的设计与实现

课题类型

系统设计

学院

大数据与人工智能学院

班级

专业

数据科学与大数据技术

指导教师

职称

学生姓名

学号

重庆工程学院教务处制

1.课题名称、来源、选题依据

1.1课题名称

基于Spark的音乐推荐与数据分析系统的设计与实现

1.2课题来源

课题来源于算法研究。

1.3选题依据

互联网在如今的爆发式发展已经改变了我们的生活方式,互联网上资源的爆发式增长让获取有效信息成为了新的难题[1]。用户接触到的信息非常有限。于是很多提出帮助用户快速精准找到所需信息的解决方案诞生了,例如搜索引擎,推荐系统等。

目前大型的音乐门户类网站的歌曲库规模往往包含上千万首的歌曲,这些歌曲被划分成不同的语种、流派、年代、主题、心情、场景等,包含的信息非常的丰富,存在着严重的信息过载[2]。对于系统中每一位音乐用户来说,都不可能去收听曲库内的每一首歌, 很多时候用户的需求往往是“一首或几首好听的歌曲”这种模糊的需求,如何根据用户在系统中产生的行为信息去庞大的歌曲库中挖掘出用户可能感兴趣的音乐,这就需要个性化音乐推荐系统综合考虑用户偏好、时间、地点、环境等各种复杂的特征[3],准确的从上千万的海量歌曲库中挑选出此时此刻最适合这个用户聆听的个性化音乐,给广大的用户带来美的享受,真正做到众口可调。

2.课题国内外研究现状和发展趋势

2.1国外研究现状

国内的音乐推荐技术发展相对缓慢。大多数音乐网站采用的技术不够成熟,基本上是针对所有用户,大数据成分太少[1]。不过,经过一段时间的发展,国内也涌现出了一些优秀的音乐推荐网站,比如 SongTaste、虾米网和豆瓣网等。SongTaste 是一个社交性质的音乐网站。在它的社区中,每一个用户都可以看到大家最近在收听什么音乐、有什么新的音乐推荐[2]。它的音乐分类相当齐全,而且推荐排行实时更新。另外,根据用户平时推荐的音乐、听歌行为以及音乐收录信息,还能够找到“相似的品味者”,从而更好地做出推荐。豆瓣网也是一个社交性的音乐推荐网站。它主要通过豆瓣小组、新浪微博、MSN、开心网、人人网等互动平台来分享和传播用户喜欢的音乐。虾米网在注册成为网站会员时会让用户选择至少5位艺人进行收藏,以此来初步确定用户欣赏音乐的倾向[3]。另外,用户还可以从大家的推荐中搜索自己喜爱的音乐,或者从品味相似的好友中找到适合自己的音乐[4]。

2.2国内研究现状

国外研究现状:大数据推荐系统的定义是 Resnick 和 Varian 在 1997 年给出的:“它是利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程”[5]。从最初在电子商务网站的深度剖析,到当下在的音乐、电影、学习资料等不同领域的广泛应用。在三十多年的时间里,大数据推荐系统一直是学术界和工业界的关注的焦点。其优点在于主动性。它能自发地收集并分析用户的行为数据,为用户的兴趣建模,得到用户的兴趣偏好后,匹配系统中资源的特征,为用户做出有效的大数据推荐[6]。同时,推荐引擎要一直监测系统中的项目变化和用户在不同行为下的兴趣特征变迁,针对不同的变动,做出相应推荐策略的调整[7]。各平台为增加用户的黏着性,以及用户对推荐结果的准确度要求,使得推荐系统的核心技术层出不穷[8],比较成熟的推荐技术有:基于内容的推荐、协同过滤(基于相似度的最邻近协同过滤算法、基于潜在因子的矩阵分解推荐算法)、深度学习、基于标签的推荐系统、混合推荐算法等。

2.3发展趋势

综上所述,Spark在处理音乐数据方面有一些独特的技术优势。例如,Spark的MLlib库提供了多种机器学习算法,可以用于处理音乐数据,包括协同过滤、分类、聚类等。此外,Spark的流处理技术也可以用于实时音乐推荐。随着人工智能和机器学习技术的不断发展,Spark在音乐推荐方面的应用也将不断加强。例如,Spark可以使用深度学习算法来对音乐数据进行更深入的分析和处理,以提高音乐推荐的精准度和用户满意度。

3.本课题的目的及意义

  • 解决音乐推荐中的冷启动问题。在音乐推荐系统中,新用户或新音乐的加入往往导致数据稀疏性问题,从而影响推荐系统的准确性。Spark音乐推荐系统通过使用基于邻域的协同过滤算法和基于物品的协同过滤算法,结合基于模型的推荐算法,可以有效缓解数据稀疏性问题,提高推荐系统的准确性。
  • 提高音乐推荐的实时性。Spark音乐推荐系统通过使用基于模型的推荐算法和流处理技术,可以实时处理用户行为数据,并及时为用户提供音乐推荐服务。这有助于提高用户体验,增加用户粘性。
  • 实现个性化音乐推荐。Spark音乐推荐系统通过使用混合推荐算法,结合用户属性和物品属性,可以推算出用户对未知音乐的喜好程度,实现个性化音乐推荐。这有助于满足不同用户的个性化需求,提高用户满意度。
  • 推动音乐产业的发展。Spark音乐推荐系统的应用可以帮助音乐平台更好地理解用户需求,提供更精准的音乐推荐服务,从而提高用户满意度和忠诚度。这有助于推动音乐产业的发展,促进音乐创新和多样性。

4.本课题的任务、重点内容、研究方法、实现途径、进度计划

4.1课题任务

系统实现用户对音乐评分的搜集(python爬虫爬取数据),后端使用大数据推荐算法构造,前端使用Vue框架搭建大数据音乐推荐系统。系统数据库使用了关系型数据库MySQL。前端收集过用户行为数据后传到后端使用基于用户的协同过滤算法来推荐出用户可能喜欢的音乐。采用BS架构,使用Java程序设计语言、MySQL数据库、Spark实时分析、Java开发工具IDEA编写程序、Tomcat模拟服务器、Java的JDK8运行环境、Navicat等工具开发而来。

4.2重点内容

  • 第一部分:爬虫爬取音乐数据(网易云音乐网站),作为测试的数据集
  • 第二部分:离线推荐系统:python+机器学习离线推荐(基于物品的协同过滤算法,相似度衡量方法:皮尔逊相似度) ,必要时可以集成算法框架比如tensflow pytroch等,推荐结果通过pymysql写入mysql
  • 第三部分:在线应用系统: springboot进行在线推荐 vue.js构建推荐页面(含知识图谱)
  • 第四部分:使用Spark构建大屏统计

4.3研究方法

  • 数据收集和分析:首先需要收集大量的音乐数据,包括歌曲信息、用户听歌记录、评价等,然后对这些数据进行深入的分析,以了解用户的行为模式和喜好。
  • 特征提取:从收集到的音乐数据中提取出有效的特征,比如歌曲的流行度、风格、演唱者、歌词内容等,以及用户的年龄、性别、听歌历史等。
  • 模型构建:根据提取出的特征,构建推荐模型,比如基于协同过滤的模型、基于内容的模型、混合推荐模型等。
  • 模型评估:使用一定的评估指标对模型进行评估,比如准确率、召回率、F1得分等,以检验模型的推荐效果。
  • 模型优化:根据评估结果对模型进行优化,比如调整参数、增加特征等,以提高模型的推荐效果。
  • 系统实现:将优化后的模型集成到Spark音乐推荐系统中,实现个性化音乐推荐服务。

4.4实现途径

  • Selenium自动化Python爬虫工具采集网易云音乐、评论数据约1000万条存入.csv文件作为数据集;
  • 使用pandas+numpy或MapReduce对数据进行数据清洗,生成最终的.csv文件并上传到hdfs;
  • 使用hive数仓技术建表建库,导入.csv数据集;
  • 离线分析采用hive_sql完成,实时分析利用Spark之Scala完成;
  • 统计指标使用sqoop导入mysql数据库;
  • 使用springboot+vue.js+echarts进行可视化大屏开发;
  • 使用基于物品的协同过滤算法,相似度衡量方法:皮尔逊相似度等算法实现个性化音乐推荐;
  • 使用卷积神经网络KNN、CNN实现音乐流量预测;
  • 搭建springboot+vue.js前后端分离web系统进行个性化推荐界面、流量预测界面、知识图谱等实现;

4.5本课题的进度时间安排;

①2023.11.13-2023.12.10:完成开题报告。

②2023.12.11-2023.12.18:完成音乐数据爬取与处理工作。

③2023.12.19-2023.12.26:完成数据仓库设计。

④2023.12.27-2024.01.11:完成Hive和Hadoop、Spark的环境搭建工作。

⑤2024.01.12-2024.02.25:完成推荐算法与数据可视化功能开发。

⑥2024.02.01-2024.02.29:完成毕业设计(论文)初稿。

⑦2024.03.01-2024.03.15:中期检查及项目功能完善。

⑧2024.03.16-2024.04.14:功能完善以及毕业设计(论文)定稿查重。

⑨2024.04.15-2024.04.30:毕业设计(论文)评阅,根据评阅老师意见修改论文,完善设计。

⑩2024.05.01-2024.05.26:毕业设计(论文)答辩。

5.完成本课题所需工作条件(如工具书、计算机、实验、调研等)及解决办法

本课题所需工作条件

①Windows10系统电脑一台、16G内存、8核处理器

②编辑器:Python 3.8、Anaconda 3、PyCharm、VMware、IDEA

③Navicat Premium 15

④MySQL、Hive、Hadoop、Azkaban、Spark

参考文献

[1]LAWRENCERD, ALMASIGS, KOTLYARV, et al. Personalization of supermarket product recommendations[ R]. IBM Research Report,2020(7):173-181

[2]徐小伟. 基于信任的协同过滤推荐算法在电子商务推荐系统的应用研究. 东华大学. 2023

[3] 吴正洋. 个性化学习推荐研究. 华南师范大学期刊.2021

[4]李雪. 基于协同过滤的推荐系统研究. 吉林大学. 2020

[5]《数据库系统概论》[M],高等教育出版社. 2020

[6]马建红.JSP应用与开发技术.第三版.清华大学出版社.2022

[7] JavaEE架构设计与开发实践[M],方巍著:清华大学出版社.2022.1

[8] Spring Boot编程思想核心篇[M],小马哥著:电子工业出版社.2023.4

[9] Spring Boot开发实战M].吴胜著:清华大学出版社.2023.6

[10]Oleg Sukhoroslov. Building web-based services for practical exercises in parallel and distributed computing[J]. Journal of Parallel and Distributed Computing.2023.

指导教师意见

该开题报告的实验设计部分详细说明了实验环境、实验数据、实验方法和实验结果等,具有可行性和可操作性。预期成果部分也明确了研究的目标和可能取得的成果,为后续的研究提供了清晰的方向和目标。重点任务明确、研究方法得当、实现途径清晰、进度安排合理。同意开题

签字:               年   月   日

系(教研室)意见

通过研究内容和方法合理,同意开题

     系(教研室)主任签字:      年   月   日

核心算法代码分享如下:

  1. def file_remove_same(input_file_name, output_file_name):
  2. """
  3. 小文件去重
  4. :param input_file_name: 输入文件夹文件名
  5. :param output_file_name: 输出文件夹文件名
  6. :return:
  7. """
  8. with open(input_file_name, 'r', encoding='utf-8') as input, open(output_file_name, 'a', encoding='utf-8') as output:
  9. input_lines = []
  10. for line in input:
  11. if line not in input_lines:
  12. input_lines.append(line)
  13. output.write(line)
  14. output.flush()
  15. input.close()
  16. output.close()
  17. # 去重
  18. file_remove_same('dataset/user_info_init.txt', 'dataset/user_info.txt')

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/天景科技苑/article/detail/1015802
推荐阅读
相关标签
  

闽ICP备14008679号