赞
踩
1、情感分析的基本方法
对情感分析的研究到目前为止主要集中在两个方面:识别给定的文本实体是主观的还是客观的,以及识别主观的文本的极性。大多数情感分析研究都是使用机器学习的方法。
在情感分析领域,文本可以划分为积极和消极两类,或者积极、消极和中性的多类。分析方法主要分为:
①词法分析
②基于机器学习的分析
③混合分析
(1)词法分析
词法分析运用了由预标记词汇组成的字典,使用词法分析器将输入文本转换为单词序列。将每一个新的单词与字典中的词汇进行匹配。如果有一个积极的匹配,那么文本的总分会递增。相反,如果有一个消极的匹配,输入文本的总分会减少。
文本的分类取决于文本的总得分。目前有大量的工作致力于度量词法信息的有效性。对单个短语,通过手动标记词汇(仅包含形容词)的方式,大概能达到85%的准确率,这是由评价文本的主观性所决定的。词法分析也存在一个不足:其性能(时间复杂度和准确率)会随着字典大小(词汇的数量)的增加而迅速下降。
(2)机器学习的方法
在情感分析中,主要使用的是有监督学习方法。它可以分为三个阶段:数据收集、预处理、训练分类。在训练过程中,需要提供一个标记语料库作为训练数据。分类器使用一系列特征向量对目标数据进行分类。在机器学习技术中,决定分类器准确率的关键是合适的特征选择。通常来说,unigram(单个短语)、bigrams(连个连续的短语)、trigrams(三个连续的短语)都可以被选为特征向量。还有一些其他的特征:积极词汇的数量、消极词汇的数量、文档的长度、支持向量机、朴素贝叶斯算法和
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。