赞
踩
import pandas as pd
import jieba
test=pd.DataFrame({'text':['我想用CNN做个情感分析,这个语句是我喜欢的',
'哈哈哈,万年刮痧王李白终于加强了',
'这个游戏好极了,个别英雄强度超标,游戏里面英雄种类丰富,我太菜,求大佬带飞',
'我觉得是个好游戏',
'这个模型准确度好垃圾,我不喜欢',
'王者必糊,小学生没防到,还把一群初中生,什么时候没人脸识别,什么时候回归',
'快去吧健康系统去掉,不然举报',
'垃圾mht,还要人脸识别微信',
'那些没脑子玩家就别下载了',
],
'label':[1, 1, 1, 1, 0, 0, 0, 0, 0]})
test.head()
text | label | |
---|---|---|
0 | 我想用CNN做个情感分析,这个语句是我喜欢的 | 1 |
1 | 哈哈哈,万年刮痧王李白终于加强了 | 1 |
2 | 这个游戏好极了,个别英雄强度超标,游戏里面英雄种类丰富,我太菜,求大佬带飞 | 1 |
3 | 我觉得是个好游戏 | 1 |
4 | 这个模型准确度好垃圾,我不喜欢 | 0 |
def cal_clear_word(test):
stoplist = [' ', '\n', ',']
def function(a):
word_list = [w for w in jieba.cut(a) if w not in list(stoplist)]
return word_list
test['text'] = test.apply(lambda x: function(x['text']), axis=1)
return test
# 结巴分类以及去掉停用词
return_df = cal_clear_word(test)
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 1.240 seconds.
Prefix dict has been built succesfully.
a=[]
for i in return_df['text']:
for j in i:
a.append(j)
words_dict = {} # 建立字典
for word in a:
if word not in words_dict: # 如果单词不在字典中
words_dict[word] = 1 # 初始词频为1
else:
words_dict[word] += 1 # 每次单词出现,词频加1
words_dict
{'我': 4, '想': 1, '用': 1, 'CNN': 1, '做个': 1, '情感': 1, '分析': 1, '这个': 3, '语句': 1, '是': 2, '喜欢': 2, '的': 1, '哈哈哈': 1, '万年': 1, '刮痧': 1, '王': 1, '李白': 1, '终于': 1, '加强': 1, '了': 2, '游戏': 3, '好极了': 1, '个别': 1, '英雄': 2, '强度': 1, '超标': 1, '里面': 1, '种类': 1, '丰富': 1, '我太菜': 1, '求': 1, '大佬': 1, '带飞': 1, '觉得': 1, '个': 1, '好': 2, '模型': 1, '准确度': 1, '垃圾': 2, '不': 1, '王者': 1, '必糊': 1, '小学生': 1, '没防到': 1, '还': 1, '把': 1, '一群': 1, '初中生': 1, '什么': 2, '时候': 2, '没': 1, '人脸识别': 2, '回归': 1, '快': 1, '去': 1, '吧': 1, '健康': 1, '系统': 1, '去掉': 1, '不然': 1, '举报': 1, 'mht': 1, ',': 1, '还要': 1, '微信': 1, '那些': 1, '没脑子': 1, '玩家': 1, '就别': 1, '下载': 1}
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。