当前位置:   article > 正文

毕业设计spark++hive知识图谱微博舆情预测_使用spark构建知识图谱

使用spark构建知识图谱

1、开发环境以及工具介绍
开发环境使用Win10操作系统,开发工具使用IDEA,Navicat,PyCharm等,数据爬取利用python的Requests框架进行,情感分析使用LSTM算法,数据库服务器使用MySql,数据处理技术使用Spark和Flink,Web端架构使用Springboot和vue等技术,可视化展示使用Echarts技术。

舆情预警系统是对新浪微博的近期热点相关的评论数据进行爬取,利用Requests框架获得海量数据。再对获取的数据进行数据预处理后导入到MySQL数据库,基于数据集利用LSTM(Long Short Term Memory)技术训练神经网络模型,对句子进行情绪上的分类和识别,对负面情绪消极数据和正面积极数据进一步分析,得到具体比值,当某种情绪到达阈值时进行预警,做到数字化的情感反馈。使用Spark和Flink等技术对相关数据进行数据实时处理,Web端框架使用Springboot和Vue等技术完成,大屏可视化展示用Echarts实现可视化。

2、算法及解决方案
1、数据爬取模块理论依据

使用urllib获取微博的cookie伪装成人类访问,从而点击微博新闻首页,根据爬取的热搜词条,抓取热搜词条对应的新闻数据,使用requests框架获取数据,当抓取到html以后,用BeautifulSoup进行解析,抓取到需要的数据如:用户名、微博名称、点赞量、转发量、发布时间、地区等关键信息,存储到mysql数据库作为数据集使用;

2、微博情感分析模块理论依据

抓取大概十多万微博数据,分析的数据较大,需要使用lstm批量情感分析,可以利用Java的多线程技术以及Python的lstm情感分析算法的技术优势&#x

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/在线问答5/article/detail/889557
推荐阅读
相关标签
  

闽ICP备14008679号