当前位置:   article > 正文

R语言文本挖掘:twitter推特LDA主题情感分析

R语言文本挖掘:twitter推特LDA主题情感分析

原文链接:http://tecdat.cn/?p=1506

高度信息化的今天,社交媒体向我们提供直接认识外界的一个窗口,决定着大家对一个地区的认知,像是一双对地区形象“塑型”的“看不见”的手点击文末“阅读原文”获取完整代码数据)。

相关视频

根据这个背景,tecdat对素有“塞上江南”之称的宁夏热门推文(hot tweet,推特中的热门推文是指被转推或被收藏过的推文,相比普通推文影响力更大)进行了分析。

研究人员发现网友们关注的主题,同时倾听大家呈现出来的态度及情感。根据对135,592条推特用户自主在线发布消息的分析,我们发现了一些值得注意的内容。

▍“消费购物” 成为关注度最高主题, 超过十分之一的推文与饮食有关

可以看到,热门推文中有关的主题有4个,根据场景的不同分别为“消费购物”、“工业经济”、“健康养生”、“休闲生活”。有关消费购物的推文所占比例最高,推特用户中最关心的宁夏议题是消费购物。

93ec983d8afb141ea490a5a59b95348e.jpeg

属于消费购物类的主题包括Market, oilsoil,food,wolf berries,drinking,wine,共6项,所占比例为32.6%;

69e83fef511f673981f2b57e7d2a40cc.jpeg

属于工业经济的包括energy, automous ,industry, coal , province等5个主题, 所占比例为26.4%。


点击标题查阅往期内容

58245f96689ef2c12fade88d0ae92051.jpeg

R语言文本挖掘、情感分析和可视化哈利波特小说文本数据

outside_default.png

左右滑动查看更多

outside_default.png

01

4e991775baffcfe8b8ea0c783b3abdc6.png

02

2152db7faaae354694417202c2825393.png

03

adee69f2f35c6365f50f13da791655c4.png

04

27928540cf645fdb8a86497c6936e64b.png

539bb321f7ed9993b2ea6f3728429b34.jpeg

属于健康养生的主题包括living , heal ,nural, antioxidant , goji ,dried,共计6个,所占比例为21%。

aaa3cd823228813492f01a84f85733e2.jpeg

属于休闲生活的主题包括twter , instagram ,pic, youngliving , shot,共计5个,所占比例为20%。

8614897a684dd2ed6e4d54adf134fa9f.jpeg

从消费购物词云中,我们发现驴友爱买的宁夏特产,如干红葡萄酒、枸杞酒、贺兰石等。

从工业词云中,我们发现煤炭是宁夏的优势矿产资源。宁夏境内能源资源丰富,可利用的有石油、天然气、煤层气、水能、风能、光能等。这些资源为宁夏建设能源基地提供了强有力的保证。

从健康养生词云中我们发现作为宁夏特产的枸杞,具有一定的养生抗氧化功效。

从休闲生活词云中,我们发现宁夏作为旅游胜地,吸引了大量年轻人前来拍照游玩。

▍热门推文总体上以积极正向为主

c27a6a9d4f57759ea97a1aa5a0ba4d5e.png

从变化的情况来看,2016年的推文积极正面的评价比例最低,为42%,消极负面评价的比例为58%,是历年来最高的。


点击标题查阅往期内容

db79e2d60dfec7c07f4dcc79b4f01fd4.jpeg

自然语言处理NLP:主题LDA、情感分析疫情下的新闻文本数据

outside_default.png

左右滑动查看更多

outside_default.png

01

96aa77aea8326c679f929446c6d81c12.png

02

79474d17e89a12ab5c085a5f845c2e81.png

03

f31897ac16cbb4a446ef98729faa4ab4.png

04

7df4465685ec1fbff99c53bc0e8fdf5e.png

通过2016年推特的关键词,我们发现负面的议题包括:驴友评论宁夏干燥的天气、宁夏部分地区牺牲环境换发展、以及导游强迫购物现象。

3062b15d88e258300d58549c8ac0f582.jpeg

按照四个主题来看,在健康养生议题中,积极正面的评价为77.05%,略高于其他议题中正面评价的比例。同时可以看到休闲生活的负面评价比例最低。

▍热门推文中只有四分之一表现出了明显的情感

识别情感时,共有六种情感:anger(愤怒)、disgust(厌恶)、fear(恐惧)、joy(喜悦)、sadness(悲伤)和surprise(惊奇),在分析时会先为每条推文的每种可能情感打分。

如果六种情感可能性得分相差不大时,则情感类拟合为unknown(未知)。如果某条推文被拟合得到某一类情感,该情感一定是强烈的情感。

825ffac7f3ee890f49b05de348c48d44.png

从情感分析的结果来看,只有25.54%的推文表现出了强烈的情感。近四分之三的推文都没有表现出强烈的情感,情感拟合为unknown。

e5da089b677a64fb2b06022dbd65ab5b.png

历时来看,随着时间的推移,热门推文表现出强烈情感的比例越来越多。在2008年,只有30.3%表达出了强烈的情感,而2016年,这个比例已经提升到42.8%。这表明,就宁夏地区议题而言,推特用户越来越倾向于表达出强烈的情感。

▍从情感的比例情况来看,喜悦高居第一位,且有上升的趋势

从所表达出来的情感来看,比例最高的情感是喜悦,占比16.19%;其次为悲伤,占4.49%。

7ff1043bf9fe25633684ca3b6d80aef7.png

joy呈现出逐年提高的趋势, 这说明热门推文中,含有喜悦情感的比例越来越多,而sadness呈现出小幅上下波动减小的态势。

1e4bb7c81671cbd93996a0ad5780601e.jpeg

点击文末“阅读原文”

获取全文完整代码数据资料。

本文选自《R语言文本挖掘:twitter推特LDA主题情感分析》。

04eab5bf8017db1520c4a95d97fa875a.jpeg

bfb5fd358df6973d8c4c07118a722bde.png

点击标题查阅往期内容

scrapy爬虫框架和selenium的使用:对优惠券推荐网站数据LDA文本挖掘

R语言用随机森林和文本挖掘提高航空公司客户满意度

R语言中对文本数据进行主题模型topic modeling分析

R语言文本挖掘NASA数据网络分析,tf-idf和主题建模

R语言文本挖掘tf-idf,主题建模,情感分析,n-gram建模研究

scrapy爬虫框架和selenium的使用:对优惠券推荐网站数据LDA文本挖掘

主题模型及文本情感分析疫情新闻数据

R语言对NASA元数据进行文本挖掘的主题建模分析

用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类

python使用MongoDB,Seaborn和Matplotlib文本分析和可视化API数据

用于NLP的Python:使用Keras进行深度学习文本生成

用R进行网站评论文本挖掘聚类

weka文本挖掘分析垃圾邮件分类模型

R语言用随机森林和文本挖掘提高航空公司客户满意度

用r语言对优惠券推荐网站数据LDA文本挖掘

52cadfb0817a8d5c7fcffcf9fdb27cab.png

cc82c795c6092aa06a8f5a4477cbadc3.jpeg

e28a386cbd8425b0c7913df82f4ddb8f.png

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/724370
推荐阅读
相关标签
  

闽ICP备14008679号