NLP 文本分类实战_实战nlp

作者：酷酷是懒虫 | 2024-07-19 00:51:47

踩

实战nlp

语言模型

语言模型用来判断：一句话从语法上是否通顺。通俗的讲就是判断一句话是不是人说的话的模型，即能够判断出 $\ want \ to \ learn \ nlp) > p(I \ want \ to \ nlp \ learn)$

通常情况下一个句子由若干词或者字组成，若句子用 $s$ 表示，组成句子的词用 $w$ 表示，可记做 $w_1, w_2, w_3, w_4, ... , w_n$ ，如下所示：

$p(s) = p(w_1, w_2, w_3, w_4, ... , w_n )$
$p (我要学习 N L P) = p (我, 要, 学习, N L P)$

如何计算一个句子出现的概率？在此之前需要了解一个 Chain Rule 的数理统计的知识，如下：

$p (A, B, C, D) = p (A) \cdot p (B ∣ A) \cdot p (C ∣ A, B) \cdot p (D ∣ A, B, C)$
- $p (A, B) = p (A) \cdot p (B ∣ A)$
- $p (A, B, C) = p (A, B) \cdot p (C ∣ A, B)$
$p(w_1, w_2, w_3, w_4, ... , w_n ) = p(w_1) · p(w_2|w_1) .... p(w_n|w_1w_2w_3w_4 ... w_{n-1})$

那么，对于句子“ 我要学习NLP” 来说，计算其概率可采用 Chain Rule 的规则方法。

$p (我要学习 N L P) = p (我, 要, 学习, N L P)$
$p (我, 要, 学习, N L P) = p (我) \cdot p (要 ∣ 我) . . . . p (N L P ∣ 我，要，学习)$

然而概率的条件越多，比如： $p (N L P ∣ 我，要，学习)$ ，符合概率的情况就越小。假如“我”出现的概率是0.0001，“要”出现的概率0.0001，“学习”出现的概率更小的话，一直累乘下去“NLP”出现的概率会越来越小。为了解决该问题，需要引入了 N-gram 模型来解决这个问题，N-gram 模型引入了马尔科夫假设（markov assumption），即当前词出现的概率只与其前 n-1 个词有关。

markov assumption

一个马尔科夫过程是状态间的转移仅依赖于前 $n$ 个状态的过程。这个过程被称之为 $n$ 阶马尔科夫模型。最简单的马尔科夫过程是一阶模型，它的状态选择仅与前一个状态有关。举个例子：

假设：当前词出现的概率与其他单词无关，Unigram model。不考虑单词之间的顺序
- $\approx p(NLP)$
假设：当前词出现的概率与距离最近的单词有关，Bigram model
$\approx p(NLP)$
假设：当前词出现的概率与前两个单词有关, Trigram model
- $\approx p(NLP)$
假设：当前词出现的概率只与其前 n-1 个词有关, N-gram model

Unigram model

$p(w_1, w_2, w_3, w_4, ... , w_n ) = p(w_1) ... p(w_n) = \prod_{i=1}^{n}p(w_i)$

Bigram model

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/酷酷是懒虫/article/detail/848547