当前位置:   article > 正文

N元语言模型的训练方法_语言模型训练

语言模型训练

------------------------------------------------------------------
大家好,我是Bright,微软拼音的开发工程师。我之前介绍了语言模型的基本概念,本文介绍一下N-gram语言模型的训练方法。
------------------------------------------------------------------

模型的训练也称为模型的参数估计,参数可以用下式估计:

算式1_1                  (1)

这样的模型是以词语为基本单位,但是汉语文本没有空格分隔,因此需要先对汉语文本进行分词处理,再在分好词的语料上统计n元对的出现次数。

语言模型的质量依赖于分词语料的质量。为了获得良好的分词语料,可以先用分词工具对未分词语料(生语料)进行自动化的分词标注,然后对其中可能分词错误的地方进行人工校对,最后得到的语料称为熟语料。根据是否需要熟语料,训练方法分为有监督和无监督的两种方式。

有监督的训练方法

有监督的训练方法比较简单。先统计n元对的出现次数,然后采用最大似然估计的方法对参数进行估计(如公式1)。

无监督的训练方法

无监督的训练方法需要适当规模的生语料和词表,然后采用EM算法迭代地对语言模型的参数进行调整。EM 算法是 Dempster Laind Rubin 于 1977 年提出的求参数极大似然估计的一种方法,它可以从非完整数据集中对参数进行估计,是一种非常简单实用的学习算法。

假设我们有一组语料,其表示为算式2,词表算式3。我们期望将语料分成最理想的形式

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/600994
推荐阅读
相关标签
  

闽ICP备14008679号