大数据毕业设计hadoop+spark+hive微博舆情情感分析知识图谱微博推荐系统_基于spark的微博舆情分析

作者：不正经 | 2024-05-31 02:49:32

踩

基于spark的微博舆情分析

（一）Selenium自动化Python爬虫工具采集新浪微博评论、热搜、文章等约10万条存入.csv文件作为数据集；

（二）使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；

（三）使用hive数仓技术建表建库，导入.csv数据集；

（四）离线分析采用hive_sql完成，实时分析利用Spark之Scala完成;

（五）统计指标使用sqoop导入mysql数据库；

（六）使用Flask+echarts进行可视化大屏开发；

（七）使用机器学习、深度学习的算法进行个性化微博推荐；

（八）使用卷积神经网络KNN、CNN实现热搜话题流量预测；

（九）搭建springboot+vue.js前后端分离web系统进行个性化推荐界面、话题流量预测界面、知识图谱等实现；

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/不正经/article/detail/649956

大数据毕业设计hadoop+spark+hive微博舆情情感分析 知识图谱微博推荐系统_基于spark的微博舆情分析