赞
踩
点互信息算法是为了计算两个词语之间的相关性,公式如下:
PMI
(
word
1
,
word
2
)
=
log
2
[
p
(
word
1
&
word
2
)
p
(
word
1
)
p
(
word
2
)
]
\operatorname{PMI}\left(\text { word }_{1}, \text { word }_{2}\right)=\log _{2}\left[\frac{\mathrm{p}\left(\text { word }_{1} \text { \& } \text { word }_{2}\right)}{\mathrm{p}\left(\text { word }_{1}\right) \mathrm{p}\left(\text { word }_{2}\right)}\right]
PMI( word 1, word 2)=log2[p( word 1)p( word 2)p( word 1 & word 2)]
结果:
PMI > 0;两个词语是相关的;值越大,相关性越强
PMI = 0;两个词语是统计独立的,不相关也不互斥
PMI < 0;两个词语是不相关的,互斥的
(1) 新词发现(判断一个词是否为词)
参考 pmi新词发现
(2)情感倾向点互信息算法(SO-PMI)
选用一组褒义词(Pwords)跟一组贬义词(Nwords)作为基准词。若把一个词语word1跟Pwords的点间互信息减去word1跟Nwords的点间互信息会得到一个差值,就可以根据该差值判断词语word1的情感倾向
S
O
(
phrase
)
=
P
M
I
(
phrase, ‘excellent’)
−
P
M
I
(
phrase, ‘poor’)
SO(phrase)>0 正面倾向,是褒义词
SO(phrase)=0 为中性词
SO(phrase)<0 为贬义词
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。