当前位置:   article > 正文

从excel读取数据,利用情感词典进行文本分类_情感词excel

情感词excel

#从excel读取数据,利用情感词典进行文本分类
数据集:从微博爬取的美妆博主的评论
情感词典:BosonNLP_情感词典
准确率:预测了3000条数据,准确率约53%。对中性评论不敏感。


import openpyxl

import codecs
from collections import defaultdict
import jieba
import xlrd

#分词,去除停用词
def seg_word (sentence):
    #分词
    seg_list = jieba.cut(sentence)
    seg_result = []
    for w in seg_list:
        seg_result.append(w)
    #读取停用词
    stopwords = set()
    fr = codecs.open('D:\个人资料\数据集\情感词典_微博专用\chineseStopWords.txt','r','utf-8')
    for word in fr:
        stopwords.add(word.strip())
    fr.close()
    #去除停用词
    return list (filter(lambda x: x not in stopwords, seg_result))

#对分词结果分类:情感词、否定词、程度副词
#key未索引,value为权值
def classify_words(word_list):
    #读取情感词典
    sen_file  = open('D:\个人资料\数据集\BosonNLP_情感词典\BosonNLP_sentiment_score\BosonNLP_sentiment_score.txt','r+',encoding='utf-8')
    #获取字典内容
    #去除‘\n’
    sen_list = sen_file.read().splitlines()
    #创建情感词典
    sen_dict = defaultdict()
    #读取字典文件每一行内容,将其转换为字典对象,key为情感词,value为对应的分值
    for s in sen_list:
        <
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/684053
推荐阅读
相关标签
  

闽ICP备14008679号