当前位置:   article > 正文

统计语言模型--整理中_n-pos 语言模型

n-pos 语言模型
语言模型(Language Model)是描述自然语言内在规律的数学模型。构造语言模型是计算语言学的核心。在实践中,语言模型广泛地用于语言识别、手写体文字识别、机器翻译、键盘输入、信息检索等研究领域。
  语言模型可分为传统的文法型语言模型和基于统计的语言模型。文法型语言模型是人工编制的语言学文法,文法规则来源于语言学家掌握的语言学知识和领域知识,但这种语言模型不能处理大规模真实文本。为满足这一需求,基于统计的语言模型应运而生。这种语言模型通常是概率模型,计算机借助于统计语言模型的概率参数,可以估计出自然语言中每个句子出现的可能性,而不是简单的判断该句子是否符合文法。常用统计语言模型,包括了N元文法模型(N-gram Model)、隐马尔科夫模型(Hidden Markov Model,简称HMM)、最大熵模型(Maximum Entropy Model)。
统计语言模型学习笔记

1、统计语言模型基本原理

  一个基于统计的计算语言模型以概率分布的形式描述了任意语句(字符串)s属于某种语言集合的可能性。例如:p(他/认真/学习)=0.02,p(他/认真/读书)=0.03,p(他/认真/坏)=0,等等。这里并不要求语句s在语法上是完备的,该模型需对任意的语句s都给出一个概率值。
  假定词是一个句子的最小的结构单位,并假设一个语句s由词w1,w2,...,wn组成,那么,不失一般性,p(s)可由公式1计算:
统计语言模型学习笔记
  例如,对于二元模型而言,p(wi|w1w2...wi-1)=p(wi|wi-1),(1<=i<=n),那么上面的公式1就简化成公式2:
统计语言模型学习笔记
  为保证公式1和公式2的完备性,必须引进一个起始词w0,并且假定p(w1|w0)=p(w1)。公式1和公式2满足:
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/628970
推荐阅读
相关标签
  

闽ICP备14008679号