当前位置:   article > 正文

基于统计学的中文分词_基于统计的无词典分词 信息熵

基于统计的无词典分词 信息熵

基于统计学的分词方法可以借鉴2.2节的统计预言模型的思想,常用的有n_gram模型、隐马尔科夫模型、最大熵模型。由于我们本次使用统计预言模型为期刊文本分词,将对上述三个模型一一介绍并比较。


  • n-gram模型
    给定句子S,假定可由规则A1,A2,A3,...Ak这k个词组成,称之为规则A,则在规则A下出现这个句子的概率P(S)可表示为
    PA(S)=P(A1,A2,A3,...Ak)

    同理,在规则B和规则C下出现这个句子的概率P(S)可表示为
    PB(S)=P(B1,B2,B3,...Bm)

    PC(S)=P(C1,C2,C3,...Cn)

    如果PA(S)>PB(S),PA(S)>PC(S)则认为A规则下的分词更加合理。
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/神奇cpp/article/detail/935879
推荐阅读
相关标签
  

闽ICP备14008679号