当前位置:   article > 正文

中文分词技术--统计分词_中文分词的统计方法

中文分词的统计方法

因为大规模语料的建立,统计机器学习方法的研究与发展,基于统计的中文分词成为主流

主要思想

将每个词看做是由词的最小单位字组成的,如果相连的字在大量的文本中出现的次数越多,则说明这几个字组成词的概率越大。因此可以用字与字相邻出现的频率来反映成词的可靠度,统计语料中相邻出现的各个字的组合的频度,当组合频度高于某一个临界值时,我们便认为其构成一个词。

步骤

  1. 建立统计语言模型

  2. 对句子进行单词划分,然后对划分结果进行概率统计,获得概率最大的分词方式。这里就用到了统计学习方法,如隐含马尔可夫(HMM)、条件随机场(CRF)等。

     


语言模型 

  • 统计语言模型

   统计语言模型是自然语言处理的基础,被广泛应用于机器翻译、语音识别、印刷体或手写体识别、拼音纠错、汉字输入和文献查询等。 

  • 模型原型

   语言的数学本质就是说话者将一串信息在头脑中做了一次编码,编码的结果是一串文字,而如果接受的人懂得这门语言,他就可以用这门语言的解码方式获得说话人想表达的信息。那么不免想到将编码规则教给计算机,这就是基于规则的自然语言处理。但是事实证明基于规则行不通,因为巨大的文法规则和语言的歧义性难以解决。所以出现了基于统计的自然语言处理(

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/935877
推荐阅读
相关标签
  

闽ICP备14008679号