当前位置:   article > 正文

豆瓣影评词云_影评分词词云

影评分词词云

内容复制自公众号,排版可能不耐看,不要介意哈。

既然已经爬取了数据,哪个guy不想顺手做下分析呢?前一期PythonGuy爬取电影《送你一朵小红花》的豆瓣影评,现在准备对数据进行简单分析,由于数据格式为文本,本次分析方法为对所有评论文字进行分词,记录所有词语出现次数(词频),按升序排序后,提取关键词,作词云图

 

依赖库:numpy、wordcloud、PIL、matplotlib、jieba

 


 

 1.分词 

 

分词选用jieba,国人开发的一款优秀中文分词第三方库,其利用中文词库,确定汉字之间的关联概率,概率大的组成词语,形成分词结果,除了分词,用户还可以添加自定义词语。

本例使用jieba.analyse包对评论分词后统计词频,并提取词频前200个词语。

 

 

分词

参数解释:

  1. sentence:待分词文本

  2. topk:提取关键字个数

  3. withWeight:是否返回每个关键词权重

  4. allowPOS:是否允许提取关键词词性,默认为allowPOS='ns';'n','vn','v',提取地面,名词、动名词,动词

 

评论(部分原始数据)

 

精确模式分词

 

提取200个关键词

 


 

 2.创建词云图 

 

使用第三方库wordcloud创建词云,首先创建一个WordCloud对象

 

 

部分参数说明:

  1. width:图像宽度

  2. height:图像高度

  3. font_path:指定字体路径

  4. mode:颜色模型

  5. max_font_size:最大字体大小

  6. random_sate:随机颜色种子

  7. mask:掩膜

  8. scale:比例,参数大小和图像分辨率呈正相关

  9. background_color:背景色

  10. relative_scaling:单词出现频率对字体大小的权重

调用generate_from_frequencies(freq)方法创建词云,字典参数freq:词语为键,词频为值

 

 

所选掩膜图像

 

读取图片做掩膜图像

 

根据掩膜生成词语颜色

 

 


 

 3.结果 

 

生成影评词云图

 

分析:

观众对电影的评论褒贬不一,推测该电影易烊千玺主演,类型为青春偶像片,猜测大部分观众不是单纯为看电影而买单。至于剧情,大概是以男主/女主与病魔对抗为主线,展开一系列关乎爱情、亲情、青春的思考。

 

 

 

 

 

以上分析受限于作者认知水平,如有冒犯,你好像也拿我没办法。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/301580
推荐阅读
相关标签
  

闽ICP备14008679号