赞
踩
1、开发环境以及工具介绍
开发环境使用Win10操作系统,开发工具使用IDEA,Navicat,PyCharm等,数据爬取利用python的Requests框架进行,情感分析使用LSTM算法,数据库服务器使用MySql,数据处理技术使用Spark和Flink,Web端架构使用Springboot和vue等技术,可视化展示使用Echarts技术。
舆情预警系统是对新浪微博的近期热点相关的评论数据进行爬取,利用Requests框架获得海量数据。再对获取的数据进行数据预处理后导入到MySQL数据库,基于数据集利用LSTM(Long Short Term Memory)技术训练神经网络模型,对句子进行情绪上的分类和识别,对负面情绪消极数据和正面积极数据进一步分析,得到具体比值,当某种情绪到达阈值时进行预警,做到数字化的情感反馈。使用Spark和Flink等技术对相关数据进行数据实时处理,Web端框架使用Springboot和Vue等技术完成,大屏可视化展示用Echarts实现可视化。
2、算法及解决方案
1、数据爬取模块理论依据
使用urllib获取微博的cookie伪装成人类访问,从而点击微博新闻首页,根据爬取的热搜词条,抓取热搜词条对应的新闻数据,使用requests框架获取数据,当抓取到html以后,用BeautifulSoup进行解析,抓取到需要的数据如:用户名、微博名称、点赞量、转发量、发布时间、地区等关键信息,存储到mysql数据库作为数据集使用;
2、微博情感分析模块理论依据
抓取大概十多万微博数据,分析的数据较大,需要使用lstm批量情感分析,可以利用Java的多线程技术以及Python的lstm情感分析算法的技术优势&#x
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。