赞
踩
概率上下文无关文法
计算分析数概率的基本假设
将子树视为独立事件,子树概率计算可以使用其包含子树概率连乘得到
三个问题
假设文法只有两种形式(规范化,Chomsky范式)
快速计算句法树概率:内向或外向算法
最佳搜索:Viterbi算法
参数估计:内外向算法
使用大量语料直接估计参数
没有大量语料,EM算法
初始随机赋值,得到模型
训练语料,得到期望值
最大似然估计
得到新的模型,迭代训练
C ( A → B C ) = ∑ 1 ≤ i ≤ k ≤ j ≤ n p ( A i j , B i k , C ( k + 1 ) j ∣ w 1 … w n , G ) = 1 p ( w 1 … n ∣ G ) ∑ 1 ≤ i ≤ k ≤ j ≤ n p ( A i j , B i k , C ( k + 1 ) j , w 1 … w n ∣ G ) = 1 p ( w 1 … n ∣ G ) ∑ 1 ≤ i ≤ k ≤ j ≤ n β i j ( A ) p ( A → B C ) α i k ( B ) α ( k + 1 ) j ( C ) C(A→BC)=∑1≤i≤k≤j≤np(Aij,Bik,C(k+1)j|w1…wn,G)=1p(w1…n|G)∑1≤i≤k≤j≤np(Aij,Bik,C(k+1)j,w1…wn|G)=1p(w1…n|G)∑1≤i≤k≤j≤nβij(A)p(A→BC)αik(B)α(k+1)j(C) C(A→BC)=1≤i≤k≤j≤n∑p(Aij,Bik,C(k+1)j∣w1…wn,G)=p(w1…n∣G)11≤i≤k≤j≤n∑p(Aij,Bik,C(k+1)j,w1…wn∣G)=p(w1…n∣G)11≤i≤k≤j≤n∑βij(A)p(A→BC)αik(B)α(k+1)j(C)
C ( A → a ) = ∑ 1 ≤ i ≤ k ≤ j ≤ n p ( A i i ∣ w 1 … w n , G ) = 1 p ( w 1 … n ∣ G ) ∑ 1 ≤ i ≤ k ≤ j ≤ n p ( A i i , w 1 … w n ∣ G ) = 1 p ( w 1 … n ∣ G ) ∑ 1 ≤ i ≤ k ≤ j ≤ n β i i ( A ) p ( A → a ) δ ( a , w i ) C(A→a)=∑1≤i≤k≤j≤np(Aii|w1…wn,G)=1p(w1…n|G)∑1≤i≤k≤j≤np(Aii,w1…wn|G)=1p(w1…n|G)∑1≤i≤k≤j≤nβii(A)p(A→a)δ(a,wi) C(A→a)=1≤i≤k≤j≤n∑p(Aii∣w1…wn,G)=p(w1…n∣G)11≤i≤k≤j≤n∑p(Aii,w1…wn∣G)=p(w1…n∣G)11≤i≤k≤j≤n∑βii(A)p(A→a)δ(a,wi)
p ^ ( A → μ ) = C ( A → μ ) ∑ μ C ( A → μ ) \widehat p(A \to \mu) = \frac {C(A \to \mu)}{\sum_\mu C(A \to \mu)} p (A→μ)=∑μC(A→μ)C(A→μ)
Learning Algorithm -> PCFG -> CYK / Chart
优点:利用概率进行剪枝,减少搜索空间,加快分析效率;可以定量比较两个句法分析器性能(概率置信度)
缺点:对概率计算条件比较苛刻(三个假设)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。