当前位置:   article > 正文

对微博情绪词进行词云图分析_微博词云

微博词云

1. 读取文件,用split进行分隔,并选出文本,一行视为一个文档。文档中可能会包含一些“噪声”(比如‘[’和‘]’等,可以删除)。

2. 使用jieba对所有文档进行分词,并统计词频。

3. 按词频进行排序。观察高频词和低频词。

过滤前高频词:

低频词:

 

4. 引入停用词表(上网搜索)进行停用词过滤,重新观察词频排序的结果。

过滤后高频词:

低频词:

(词数少了几百个)

代码:

 

 

6. 对词性进行分析,观察不同词性的出现频率,并对特定词性的词进行可视化(词云)。

过滤前:

  1. 对词性进行分析,观察不同词性的出现频率,并对特定词性的词进行可视化(词云)。

频率(饼状图):

 

 

动词的词云图:

 

 

 

7.(附加) 如果tuple来表示bigram,请统计所有的bigram的频率,并通过可视化观察高频的bigram。

 

 

8.(附加)可否利用词频来进行特征词的筛选?如果有了特征词,怎么通过其来对文本进行向量表示?如果有了向量表示,可否计算不同文本之间的距离(相似性)?

向量表示:

计算文本距离:

 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/531909
推荐阅读
相关标签
  

闽ICP备14008679号