赞
踩
NLP
基于情感词典的情感分析
情感分析主要是判别文本的情感倾向,即属于正面、负面、中性。利用机器提取人们对某人或事物的态度,从而发现潜在的问题用于改进或预测。
目前主要的情感分析方法是基于情感词典的,以及基于监督或半监督学习的。基于情感词典的方法都好说,本篇接下来会详细讲;基于监督或半监督学习的方法主要是基于神经网络、深度学习的一些方法将文档转换成向量后,利用SVM、贝叶斯分类器等分类器再去分类,从而判断文档的情感倾向。
情感词典
基于情感词典的情感分析主要是利用事先准备好的情感词库,给每个词以相应的情感倾向度的权值,然后从文本中提取出所有的情感词并根据句子特点(反问句,疑问句等)计算最后的情感得分和,根据情感得分判断文本的情感极性。
这种方法的首要任务是如何去构建情感词典,如何判断一个词语是褒义词或贬义词,目前的研究有两种思路:一种是基于语义计算,一般可根据《知网》情感词计算语义相似度,计算目标词语跟基准词之间的紧密程度,得以判定情感极性;
另一种是基于统计分析,计算目标词语基准词之间的点互信息值,确定两个词之间的紧密程度,从而获取目标词的情感倾向。
基于语义计算
基于语义计算的情感词构建,核心是如何构建基础情感词,然后由目标词与这些基础情感词做语义相似度计算。
这类基础情感词必须要人工标记,我们一般选下列几种前人整理好的情感词典:《知网(HowNet)》
它是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。
知网发布了“情感分析用词语集(beta版)”,其中中文情感分析用词语集常用的有 4 个文件,分别为“正面情感词语”、“负面情感词语”、“正面评价词语”、“负面评价词语”。
台湾大学 NTUSD
NTUSD 的英文全称是 National Taiwan University Sentiment Dictionary,它是由台 湾大学整理并发布的情感词典,分为繁体中文和简体中文两个版本。两个版本都包 括有 2810 个正面情感词语和 8276 负面情感词语。
其它情感词典
其它情感词典包括张伟、刘缙等编著的《学生褒贬义词典》、史继林、朱英贵 编著《褒义词词典》以及杨玲、朱英贵编著的《贬义词词典》。对于微博评论等网络风格比较浓烈的文本情感分析来说,还有一些新生词,比如“稀饭(喜欢)”、“J
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。