当前位置:   article > 正文

NLP_统计词频_nlp词频统计

nlp词频统计
import pandas as pd
import jieba
  • 1
  • 2
test=pd.DataFrame({'text':['我想用CNN做个情感分析,这个语句是我喜欢的',
                           '哈哈哈,万年刮痧王李白终于加强了',
                           '这个游戏好极了,个别英雄强度超标,游戏里面英雄种类丰富,我太菜,求大佬带飞',
                           '我觉得是个好游戏',
                           '这个模型准确度好垃圾,我不喜欢',
                           '王者必糊,小学生没防到,还把一群初中生,什么时候没人脸识别,什么时候回归',
                           '快去吧健康系统去掉,不然举报',
                           '垃圾mht,还要人脸识别微信',
                           '那些没脑子玩家就别下载了',
                          ],
                  'label':[1, 1, 1, 1, 0, 0, 0, 0, 0]})
test.head()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
textlabel
0我想用CNN做个情感分析,这个语句是我喜欢的1
1哈哈哈,万年刮痧王李白终于加强了1
2这个游戏好极了,个别英雄强度超标,游戏里面英雄种类丰富,我太菜,求大佬带飞1
3我觉得是个好游戏1
4这个模型准确度好垃圾,我不喜欢0
def cal_clear_word(test):
    stoplist = [' ', '\n', ',']

    def function(a):
        word_list = [w for w in jieba.cut(a) if w not in list(stoplist)]
        return word_list

    test['text'] = test.apply(lambda x: function(x['text']), axis=1)
    return test
# 结巴分类以及去掉停用词
return_df = cal_clear_word(test)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 1.240 seconds.
Prefix dict has been built succesfully.
  • 1
  • 2
  • 3
  • 4
a=[]
for i in return_df['text']:
    for j in i:
        a.append(j)
  • 1
  • 2
  • 3
  • 4
words_dict = {}  # 建立字典
for word in a:
    if word not in words_dict:  # 如果单词不在字典中
        words_dict[word] = 1  # 初始词频为1
    else:
        words_dict[word] += 1  # 每次单词出现,词频加1
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
words_dict
  • 1
{'我': 4,
 '想': 1,
 '用': 1,
 'CNN': 1,
 '做个': 1,
 '情感': 1,
 '分析': 1,
 '这个': 3,
 '语句': 1,
 '是': 2,
 '喜欢': 2,
 '的': 1,
 '哈哈哈': 1,
 '万年': 1,
 '刮痧': 1,
 '王': 1,
 '李白': 1,
 '终于': 1,
 '加强': 1,
 '了': 2,
 '游戏': 3,
 '好极了': 1,
 '个别': 1,
 '英雄': 2,
 '强度': 1,
 '超标': 1,
 '里面': 1,
 '种类': 1,
 '丰富': 1,
 '我太菜': 1,
 '求': 1,
 '大佬': 1,
 '带飞': 1,
 '觉得': 1,
 '个': 1,
 '好': 2,
 '模型': 1,
 '准确度': 1,
 '垃圾': 2,
 '不': 1,
 '王者': 1,
 '必糊': 1,
 '小学生': 1,
 '没防到': 1,
 '还': 1,
 '把': 1,
 '一群': 1,
 '初中生': 1,
 '什么': 2,
 '时候': 2,
 '没': 1,
 '人脸识别': 2,
 '回归': 1,
 '快': 1,
 '去': 1,
 '吧': 1,
 '健康': 1,
 '系统': 1,
 '去掉': 1,
 '不然': 1,
 '举报': 1,
 'mht': 1,
 ',': 1,
 '还要': 1,
 '微信': 1,
 '那些': 1,
 '没脑子': 1,
 '玩家': 1,
 '就别': 1,
 '下载': 1}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70

  • 1
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/412803
推荐阅读
相关标签
  

闽ICP备14008679号