赞
踩
分词,对于一个字符串C=,可以输出多个词串S=,而S中概率最大的那个,就是我们要的结果。
根据贝叶斯公式:
其中P(C),可以从语料库统计得出,在这里只是一个固定值;
且P(C|S)=1。因此,比较P(S|C)的大小变成比较P(S)的大小:
根据马尔科夫模型可得:
P(S) = P(w1,w2,...,wn)= P(w1)P(w2|w1) P(w3|w1,w2)…P(wn|w1w2,...,wn-1) ≈P(w1) P(w2|w1)P(w3|w2)…P(wn|wn-1)
注:P(wi|wi-1)≈ freq(wi-1,wi) /freq(wi-1)
对P(S)取对数:
求最大概率也是求最佳路径的问题,这里采用的是动态规划中的最佳路径:
根据基本词库对句子进行全切分,找出所有可能的词,形成切分词图。
例如:
到节点i为止的最大概率称为节点i的概率的一元模型:
二元模型:
即:P(节点m的最佳2级前驱节点)*P(节点m的2级最佳前驱词序列)
所以P(S)就变成了到最后一个节点为止的最大概率。
分词时通常采用的是二元模型。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。