当前位置:   article > 正文

NLP-词性标注-隐马尔可夫模型实现_词性标注 公式

词性标注 公式


一、词性标注

词性标注是语料库语言学中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术。

二、HMM词性标注构建

1.词性标注任务目标

词性标注的任务是:给定词序列 W = w 1 , w 2 , … , w n W= w_1,w_2,…,w_n W=w1,w2,,wn ,寻找词性标注序列 T = t 1 , t 2 , … , t n T=t_1,t_2,…,t_n T=t1,t2,,tn,使得 P ( t ! , t 2 , . . . , t n ∣ w 1 , w 2 , . . . , w n ) P(t_!,t_2,...,t_n|w_1,w_2,...,w_n) P(t!,t2,...,tnw1,w2,...,wn) 这个条件概率最大。

例如,词序列是:“他回来” 这句话。为了简化计算,假设只有词性:代词( r r r)、动词( v v v)、名词( n n n)和方位词( f f f)。这里:“他” 只可能是代词,“会” 可能是动词或者名词,而 “来” 可能是方位词或者动词。所以有4种可能的标注序列。

需要比较以下四个概率:
P ( r , v , v ∣ 他 , 会 , 来 ) P(r,v,v|他,会,来) P(r,v,v,,)
P ( r , n , v ∣ 他 , 会 , 来 ) P(r,n,v|他,会,来) P(r,n,v,,)
P ( r , v , f ∣ 他 , 会 , 来 ) P(r,v,f|他,会,来) P(r,v,f,,)
P ( r , n , f ∣ 他 , 会 , 来 ) P(r,n,f|他,会,来) P(r,n,f,,)
发现 P ( r , v , v ∣ 他 , 会 , 来 ) P(r,v,v|他,会,来) P(r,v,v,,)是这4个概率中最大的,所以选择词性标注序列 ( r , v , v ) (r,v,v) (rvv)

使用贝叶斯公式重新描述这个条件概率:
P ( t 1 , t 2 , . . . , t n ∣ w 1 , w 2 , . . . , w n ) P(t_1,t_2,...,t_n|w_1,w_2,...,w_n) P(t1,t2,...,tnw1,w2,...,wn) =

P ( t 1 , t 2 , . . . , t n ) ∗ P ( w 1 , w 2 , . . . , w n ∣ t 1 , t 2 , . . . , t n ) / P ( w 1 , w 2 , . . . , w n ) P(t_1,t_2,...,t_n) * P(w_1,w_2,...,w_n|t_1,t_2,...,t_n) / P(w_1,w_2,...,w_n) P(t1,t2,...,tn)P(w1,w2,...,wnt1,t2,...,tn)/P(w1,w2,...,wn)

忽略掉分母,使用二元模型以及齐次性使 P ( t 1 , t 2 , . . . , t n ) ∗ P ( w 1 , w 2 , . . . , w n ∣ t 1 , t 2 , . . . , t n ) P(t_1,t_2,...,t_n) * P(w_1,w_2,...,w_n|t_1,t_2,...,t_n) P(t1,t2,...,tn)P(w1,w2,...,wnt1,t2,...,tn) 概率最大。

其中:
P ( t 1 , t 2 , . . . , t n ) = P ( t 1 ) p ( t 2 ∣ t 1 ) . . . p ( t n ∣ t n − 1 ) P(t_1,t_2,...,t_n) =P(t1)p(t_2| t_1)...p(t_{n}| t_{n-1}) P(t1,t2,...,tn)=P(t1)p(t2t1)...p(tntn1)
P ( w 1 , w 2 , . . . , w n ∣ t 1 , t 2 , . . . , t n ) = p ( w 1 ∣ t 1 ) . . . p ( w n ∣ t n ) P(w_1,w_2,...,w_n|t_1,t_2,...,t_n) = p(w_1| t_1)...p(w_{n}| t_{n}) P(w1,w2,...,wnt1,t2,...,tn)=p(w1t1)...p(wntn)

2. 模型状态集合

Q Q Q = { r r r v v v n n n f f f}, N N N = 4

3. 观察状态集合

V V V = { 我 我 会 会 来 来 … } ,句子的集合。

4. 状态转移概率分布矩阵

在词性标注中就是状态序列 Q Q Q = { r r r v v v n n n f f f} 的转移概率,这个状态概率矩阵是在训练阶段参数估计中得到。

在这里插入图片描述

5. 观测状态概率矩阵(发射概率)

在词性标注中发射概率指的是每一个字符对应状态序列 Q Q Q = { r r r v v v n n n f f f} 中每一个状态的概率,通过对训练集每个字符对应状态的频数统计得到。
在这里插入图片描述

6. 初始概率

词性标注中初始状态概率指的是每一句话第一个字符的对应词性概率。
{ r r r:xxx, v v v: xxx, n n n: xxx, f f f: xxx}

7. 维特比求解

在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/588757
推荐阅读
相关标签
  

闽ICP备14008679号