基于统计语言模型的分词方法

作者：繁依Fanyi0 | 2024-08-06 04:47:48

踩

语言模型中的分词算法

20世纪80年代更早提出的分词方法大部分是基于词表进行的，称为基于词表分词方法。近10年来，随着统计方法的迅速发展，人们提出很多基于统计的模型分词方法和规则方法与统计方法相结合的分词技术，称为基于统计模型的分词方法。

假设随机变量S为一个汉字序列,W是S上所有可能切分出来的词序列，分词过程应该是求解条件概率P(W|S)最大的词序列W',即

W' = argwmaxP(W|S) -------------------------------1

根据贝叶斯公式：P(AB) = P(A)P(B|A)

= P(B)P(A|B)

1式变为：

W' = argwmaxP(W)P(S|W)/P(S) --------2

由于分母为归一化因子，因此2式变为：

W' = argwmaxP(W)P(S|W) -----------------------3

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/935854?site