赞
踩
本文介绍的是如何进行情感识别。
在自然语言中(尤其社交媒体和购物网站中),每一句话都隐含了具体的情感倾向,比如中性、正面、负面。比如:今天天气不错;今天心情不太好;苹果手机不错;地球是圆的。对于人来说,可以很轻易的就分辨出上述句子是正面的、中性的、负面的。
但是在自然语言处理中是如何进行判断的呢?下面就对基本的情感分析方法进行介绍。
在真正开始前,首先想想人看到一句话是如何思考的。
比如:今天天气不错。对于今天和天气来说,只是具体的对话对象,表明讨论的是今天的天气;而真正起作用的是‘不错’,表明今天的天气令人很舒畅,或者心情变好。因为才会得出‘今天天气不错’是正面的评价。
这里我们不关心具体的评价对象,但是可以很清楚看出某些词对于情感倾向识别是起关键作用的。那么我们是否可以建立一个标准情感词库作为情感分析的种子词库呢?答案是肯定的。
情感倾向的种子词库建立是通过分析语料库,首先对语料库去除停用词,然后对与其中的词进行分类,分别为:正面、负面、中性。比如:
正面:不错、很好、很棒、伟大
负面:不好、很坏、讨厌、无用
中性:手机、地球、一般、还行
文档频率是指某一个词在文档中出现的次数,用
文档共现频率是指在同一个文档中共同出现的词的出现次数,用
假设我们有很多商品评价或者微博比如下面的形式:
1.xxxxxxxx
2.xxxxxxx
3.xxxx
4.xxxxxx
那么如何统计
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。