赞
踩
本文使用python抓取微博数据并对微博文本分析和可视化,LDA(树图)、关系图、词云、时间趋势(折线图)、热度地图、词典情感分析(饼图和3D柱状图)、词向量神经网络情感分析、tfidf聚类、词向量聚类、关键词提取、文本相似度分析等。
prepro.py、pre_graph.py、senti_pre.py
为了应对各种分析需求,需要数据预处理,具体所需数据文件类型和输出的结果数据结构见这三个py文件
PS:
prepro.py 运行时根据需要修改123、143、166行三处代码
pre_graph.py 运行时根据需要修改127、140行两处代码
senti_pre.py 运行时根据需要修改第119行代码
zh_wiki.py、langconv.py
这两个py文件是用于繁体转简体的无需修改
数据分析和可视化
词云:wc.py(需要跑完prepro.py)
根据需要修改3、19、26行代码
热度地图: map.py(需要跑完prepro.py)
根据需要修改第8行代码
转发、评论、点赞时间序列: line.py(需要跑完senti_pre.py 和 senti_analy.py)
微博评论关系图: graph.py(需要跑完pre_graph.py)
(参考)
文本聚类: cluster_tfidf.py
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。