当前位置:   article > 正文

计算机毕业设计python+spark知识图谱音乐推荐系统 音乐数据分析可视化大屏 音乐爬虫 LSTM情感分析 大数据毕设 深度学习 机器学习_基于python的网易云音乐数据处理 与可视化分析图片

基于python的网易云音乐数据处理 与可视化分析图片

流程:
1.Python采集网易云音乐歌手、歌词、音乐、评论等约10-20万+海量数据,存入mysql数据库;
2.使用pandas+numpy/MapReduce对mysql中四类数据进行数据清洗,写入.csv文件并上传至hdfs(含评论NLP文本分类/lsm情感分析);
3.使用hive建库建表,导入.csv数据集;
4.一半分析指标使用hive_sql完成,一半分析指标使用Spark之Scala语法完成;
5.将分析结果使用sqoop导入mysql数据库的指标表;
6.使用Flask+Echarts搭建可视化大屏界面;
创新点:
1.Python爬虫采集海量数据;
2.lstml情感分析/NLP文本分类;
3.spark实时分析+(hadoop、hive离线分析数据仓库)双实现,可实时可离线防止导师喷人;
4.可视化大屏炫酷显摆;
注意:如果还觉得本系统太简单太low工作量不够,可以选装推荐系统、知识图谱、预测系统、后台管理

核心算法代码分享如下:

  1. def file_remove_same(input_file_name, output_file_name):
  2. """
  3. 小文件去重
  4. :param input_file_name: 输入文件夹文件名
  5. :param output_file_name: 输出文件夹文件名
  6. :return:
  7. """
  8. with open(input_file_name, 'r', encoding='utf-8') as input, open(output_file_name, 'a', encoding='utf-8') as output:
  9. input_lines = []
  10. for line in input:
  11. if line not in input_lines:
  12. input_lines.append(line)
  13. output.write(line)
  14. output.flush()
  15. input.close()
  16. output.close()
  17. # 去重
  18. file_remove_same('dataset/user_info_init.txt', 'dataset/user_info.txt')

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/码创造者/article/detail/1015773
推荐阅读
相关标签
  

闽ICP备14008679号