赞
踩
词性标注是语料库语言学中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术。
词性标注的任务是:给定词序列 W = w 1 , w 2 , … , w n W= w_1,w_2,…,w_n W=w1,w2,…,wn ,寻找词性标注序列 T = t 1 , t 2 , … , t n T=t_1,t_2,…,t_n T=t1,t2,…,tn,使得 P ( t ! , t 2 , . . . , t n ∣ w 1 , w 2 , . . . , w n ) P(t_!,t_2,...,t_n|w_1,w_2,...,w_n) P(t!,t2,...,tn∣w1,w2,...,wn) 这个条件概率最大。
例如,词序列是:“他回来” 这句话。为了简化计算,假设只有词性:代词( r r r)、动词( v v v)、名词( n n n)和方位词( f f f)。这里:“他” 只可能是代词,“会” 可能是动词或者名词,而 “来” 可能是方位词或者动词。所以有4种可能的标注序列。
需要比较以下四个概率:
P
(
r
,
v
,
v
∣
他
,
会
,
来
)
P(r,v,v|他,会,来)
P(r,v,v∣他,会,来)
P
(
r
,
n
,
v
∣
他
,
会
,
来
)
P(r,n,v|他,会,来)
P(r,n,v∣他,会,来)
P
(
r
,
v
,
f
∣
他
,
会
,
来
)
P(r,v,f|他,会,来)
P(r,v,f∣他,会,来)
P
(
r
,
n
,
f
∣
他
,
会
,
来
)
P(r,n,f|他,会,来)
P(r,n,f∣他,会,来)
发现
P
(
r
,
v
,
v
∣
他
,
会
,
来
)
P(r,v,v|他,会,来)
P(r,v,v∣他,会,来)是这4个概率中最大的,所以选择词性标注序列
(
r
,
v
,
v
)
(r,v,v)
(r,v,v)。
使用贝叶斯公式重新描述这个条件概率:
P
(
t
1
,
t
2
,
.
.
.
,
t
n
∣
w
1
,
w
2
,
.
.
.
,
w
n
)
P(t_1,t_2,...,t_n|w_1,w_2,...,w_n)
P(t1,t2,...,tn∣w1,w2,...,wn) =
P ( t 1 , t 2 , . . . , t n ) ∗ P ( w 1 , w 2 , . . . , w n ∣ t 1 , t 2 , . . . , t n ) / P ( w 1 , w 2 , . . . , w n ) P(t_1,t_2,...,t_n) * P(w_1,w_2,...,w_n|t_1,t_2,...,t_n) / P(w_1,w_2,...,w_n) P(t1,t2,...,tn)∗P(w1,w2,...,wn∣t1,t2,...,tn)/P(w1,w2,...,wn)
忽略掉分母,使用二元模型以及齐次性使 P ( t 1 , t 2 , . . . , t n ) ∗ P ( w 1 , w 2 , . . . , w n ∣ t 1 , t 2 , . . . , t n ) P(t_1,t_2,...,t_n) * P(w_1,w_2,...,w_n|t_1,t_2,...,t_n) P(t1,t2,...,tn)∗P(w1,w2,...,wn∣t1,t2,...,tn) 概率最大。
其中:
P
(
t
1
,
t
2
,
.
.
.
,
t
n
)
=
P
(
t
1
)
p
(
t
2
∣
t
1
)
.
.
.
p
(
t
n
∣
t
n
−
1
)
P(t_1,t_2,...,t_n) =P(t1)p(t_2| t_1)...p(t_{n}| t_{n-1})
P(t1,t2,...,tn)=P(t1)p(t2∣t1)...p(tn∣tn−1)
P
(
w
1
,
w
2
,
.
.
.
,
w
n
∣
t
1
,
t
2
,
.
.
.
,
t
n
)
=
p
(
w
1
∣
t
1
)
.
.
.
p
(
w
n
∣
t
n
)
P(w_1,w_2,...,w_n|t_1,t_2,...,t_n) = p(w_1| t_1)...p(w_{n}| t_{n})
P(w1,w2,...,wn∣t1,t2,...,tn)=p(w1∣t1)...p(wn∣tn)
Q Q Q = { r r r, v v v, n n n, f f f}, N N N = 4
V V V = { 我 我 我, 会 会 会, 来 来 来 … } ,句子的集合。
在词性标注中就是状态序列 Q Q Q = { r r r, v v v, n n n, f f f} 的转移概率,这个状态概率矩阵是在训练阶段参数估计中得到。
在词性标注中发射概率指的是每一个字符对应状态序列
Q
Q
Q = {
r
r
r,
v
v
v,
n
n
n,
f
f
f} 中每一个状态的概率,通过对训练集每个字符对应状态的频数统计得到。
词性标注中初始状态概率指的是每一句话第一个字符的对应词性概率。
{
r
r
r:xxx,
v
v
v: xxx,
n
n
n: xxx,
f
f
f: xxx}
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。