NLP之语言模型_基于文法的模型有哪些

作者：花生_TL007 | 2024-05-02 22:15:05

踩

基于文法的模型有哪些

语言模型（language model, LM）在自然语言处理中占有重要的地位，尤其在基于统计模型的语音识别、机器翻译、汉语自动分词和句法分析等相关研究中得到了广泛应用。目前主要采用的是n元语法模型（n-gram model），这种模型构建简单、直接，但同时也因为数据缺乏而必须采取平滑（smoothing）算法。

接下来主要介绍n元语法的基本概念和几种常用的数据平滑方法。

2.古德-图灵（Good-Turing）估计法

n元语法

一个语言模型通常构建为字符串s的概率分布p（s），这里p（s）试图反映的是字符串s作为一个句子出现的频率。例如，在一个刻画口语的语言模型中，如果一个人所说的话语中每100个句子里大约有一句是Okay，则可以认为p（Okay）≈0.01。而对于句子“An apple ate the chicken”我们可以认为其概率为0，因为几乎没有人会说这样的句子。需要注意的是，与语言学中不同，语言模型与句子是否合乎语法是没有关系的，即使一个句子完全合乎语法逻辑，我们仍然可以认为它出现的概率接近为零。

对于一个由l个基元（“基元”可以为字、词或短语等，以后我们只用“词”来通指）构成的句子s＝w1w2…wl，其概率计算公式可以表示为：

我们可以看到，产生第i（1≤i≤l）个词的概率是由已经产生的i-1个词w1w2…wi-1决定的。一般地，我们把前i-1个词w1w2…wi-1称为第i个词的“历史（history）”。在这种计算方法中，随着历史长度的增加，不同的历史数目按指数级增长。如果历史的长度为i-1，那么，就有Li-1种不同的历史（假设L为词汇集的大小），而我们必须考虑在所有Li-1种不同的历史情况下，产生第i个词的概率。这样的话，模型中就有Li个自由参数p（wi|w1，w2，…，wi-1）。这使我们基本不可能从训练数据中正确地估计出这些参数。

因此，为了解决这个问题，可以将历史w1w2…wi-1按照某个法则映射到等价类E（w1w2…wi-1），而等价类的数目远远小于不同历史的数目。如果假定：

那么，自由参数的数目就会大大地减少。有很多方法可以将历史划分成等价类，其中，一种比较实际的做法是，将两个历史Wi-n＋2…Wi-1Wi和V、Vk-n＋2…Vk-1Vk映射到同一个等价类，当且仅当这两个历史最近的n-1（1≤n≤l）个词相同，即如果E（w1w2…wi-1wi）＝E（v1v2…vk-1vk），当且仅当（Wi-n＋2…Wi-1Wi）＝（Vk-n＋2…Vk-1Vk）。

满足上述条件的语言模型称为 n 元语法或 n 元文法（n-gram）。通常情况下，n 的取值不能太大，否则，等价类太多，自由参数过多的问题仍然存在。在实际应用中，取n＝3的情况较多。当n＝1时，即出现在第i位上的词wi独立于历史时，一元文法被记作unigram，或uni-gram，或monogram；当n＝2时，即出现在第i位上的词wi仅与它前面的一个历史词wi-1有关，二元文法模型被称为一阶马尔可夫链（Markov chain），记作bigram或bi-gram；当n＝3时，即出现在第i位置上的词wi仅与它前面的两个历史词wi-2wi-1有关，三元文法模型被称为二阶马尔可夫链，记作trigram或tri-gram。

以二元语法模型为例，根据前面的解释，我们可以近似地认为，一个词的概率只依赖于它前面的一个词，那么，

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/花生_TL007/article/detail/526348