当前位置: article > 正文

NLP经典论文：NNLM 笔记_nnlm 论文

作者：黑客灵魂 | 2024-08-01 06:03:51

踩

nnlm 论文

论文

原论文：《A Neural Probabilistic Language Model》

介绍

2003/02发表的文章，提出了神经网路语言模型。该模型使用前 $n - 1$ 个词来预测第 $n$ 个词，计算概率 $p(w_n|w_{1}, w_{2}, ..., w_{n-1})$ 。首先将前 $n - 1$ 个词用 one-hot 表示，然后使用投影矩阵降维，再将降维后的 $n - 1$ 个词的表示拼接起来，输入到单层的使用 tanh 激活的神经网络中，得到一个富含输入信息的 hidden state 向量，或者说是 context 向量，再经过一个线性层得到字典中词得预测分值，经过softmax后得到每个词的概率，其中概率最大的就是模型的预测词。

优点

由于NNLM模型使用了低维紧凑的词向量对上文进行表示，这解决了词袋模型带来的数据稀疏、语义鸿沟等问题。

缺点

模型在神经网络层参数量巨大。

模型结构

在这里插入图片描述

整体模型

输入

$w_{t-n+1}, w_{t-n+2}, ..., w_{t-1}$ 为输入长度为n-1的一串文本，文本通过one-hot表示， $\in R^{V \times 1}$ ，V为字典大小，包含词的总数。

输出

$f(w_{t-n+1}, w_{t-n+2}, ..., w_{t-1})=\hat{w_t}$ ， $\hat{w}$ 为预测词，为 $max\{\boldsymbol{p}\}$ 所对应的词，其中

$\boldsymbol{p}=\{p(w_1|w_{t-n+1}, w_{t-n+2}, ..., w_{t-1}), p(w_2|w_{t-n+1}, w_{t-n+2}, ..., w_{t-1}), ..., p(w_i|w_{t-n+1}, w_{t-n+2}, ..., w_{t-1}),...\}, i=1, 2, 3, ..., V$

意思就是给定n-1个输入词（ $w_{t-n+1}, w_{t-n+2}, ..., w_{t-1}$ ），预测第n个词 $w_{t}$ 时， $\{\boldsymbol{p}\}$ 中概率最大的那个 $p(w_i|w_{t-n+1}, w_{t-n+2}, ..., w_{t-1})$ 所对应的那个词 $w_i$ ，就是预测输出的词。

整体流程

在这里插入图片描述

输入层

在这里插入图片描述

输入

$w_{t-n+1}, w_{t-n+2}, ..., w_{t-1}$ 为输入长度为n-1的一串文本，文本通过one-hot表示， $\in R^{V \times 1}$ ，V为字典大小，包含词的总数。

输出

$\boldsymbol{x}=C_{t-n+1}\oplus C_{t-n+2}\oplus ...\oplus C_{t-1}, \boldsymbol{x}\in R^{m(n-1)\times 1}$

其中， $\oplus$ 为拼接操作， $C_{i}=\boldsymbol{C}w_{i}$ ， $C_i \in R^{m\times 1}$ ， $\boldsymbol{C}$ 为变换矩阵，投影矩阵， $\boldsymbol{C} \in R^{m \times V}$ ，把one-hot表示的稀疏向量从稀疏的V维空间投影到稠密的m维空间。然后再将 $C_i$ 拼接起来，形成上下文信息，传递给下一层。

隐藏层

在这里插入图片描述

输入

$\boldsymbol{x}=C_{t-n+1}\oplus C_{t-n+2}\oplus ...\oplus C_{t-1}, \boldsymbol{x}\in R^{m(n-1)\times 1}$

输出

$tanh(\boldsymbol{H}\boldsymbol{x}+\boldsymbol{d})\in R^{h \times 1}, \boldsymbol{H}\in R^{h \times m(n-1)}, \boldsymbol{d}\in R^{h \times 1}$ ，h为隐藏层神经元个数。

这层提取输入的特征，传给下一层。

输出层

在这里插入图片描述

输入

输入层与输出层连接时： $tanh(\boldsymbol{H}\boldsymbol{x}+\boldsymbol{d})$ ， $x$
输入层与输出层不连接时： $tanh(\boldsymbol{H}\boldsymbol{x}+\boldsymbol{d})\in R^{h \times 1}$

输出

$\hat{w_t}$

过程

输入层与输出层连接时：

$\boldsymbol{y} = \boldsymbol{b}+\boldsymbol{Wx}+\boldsymbol{U}tanh(\boldsymbol{H}\boldsymbol{x}+\boldsymbol{d})$

其中 $\boldsymbol{b}\in R^{V \times 1}, \boldsymbol{W}\in R^{V \times m(n-1)}, \boldsymbol{U}\in R^{V \times h}$ ，通常 $\boldsymbol{W}$ 为 $\boldsymbol{0}$
输入层与输出层不连接时：

$\boldsymbol{y} = \boldsymbol{b}+\boldsymbol{U}tanh(\boldsymbol{H}\boldsymbol{x}+\boldsymbol{d}), \boldsymbol{y} \in R^{V \times 1}$

$\boldsymbol{y}$ 可以理解为融合特征之后，对每一个字典里面的词进行预测值打分，打分的值并不为概率， $\boldsymbol{y}$ 经过softmax，才是最后的预测概率 $\boldsymbol{p}, \boldsymbol{p} \in R^{V \times 1}$

$\boldsymbol{p}=\frac{e^{\boldsymbol{y}}}{\sum\limits_{i}^{V}e^{y_i}}$

softmax结构

在这里插入图片描述
本文的分值y为图中的z，本文的概率p为图中的y。

$\{\boldsymbol{p}\}$ 中概率最大的那个 $p(w_i|w_{t-n+1}, w_{t-n+2}, ..., w_{t-1})$ 所对应的那个词 $w_i$ ，就是预测输出的词。

优化目标

交叉熵cross entropy loss

这里使用的是交叉熵cross entropy loss
$CEH(p,q)=-\sum\limits_{x \in \boldsymbol{X}} p(x)\log q(x)$
其中 $\boldsymbol{X}$ 为x的取值范围，多分类任务中代表类别。
这里有2个模型，一个x的真实模型，一个是构造的模型，我们希望构造的模型尽量接近真实模型。交叉熵越小，表示两个概率分布越靠近。p(x)为x的真实概率分布，q(x)为构造模型的概率分布。

NNLM模型的优化目标

$loss=min(-\sum\limits_{t=1}^T\log p(w_t|w_{t-n+1}, w_{t-n+2}, ..., w_{t-1}))$
待优化的参数为： $\boldsymbol{b}, \boldsymbol{d}, \boldsymbol{W}, \boldsymbol{U}, \boldsymbol{H}, \boldsymbol{C}$

对于一个输入样本 $w_{t-n+1}, w_{t-n+2}, ..., w_{t-1}$ 来说，真实概率为one-hot编码值，模型的预测概率为 $\boldsymbol{p}$

示例

原文为：我/爱/中国/共产党，假设字典大小V=4

$f(w_{t-n+1}, w_{t-n+2}, ..., w_{t-1})=\hat{w_t}$
$w_{t-n+1}, w_{t-n+2}, ..., w_{t-1}$ 为：我/爱/中国
预测词 $\hat{w_t}$ 为：共产党

词	one-hot编码
我	[1,0,0,0]
爱	[0,1,0,0]
中国	[0,0,1,0]
共产党	[0,0,0,1]

输入到NNLM模型中，最后得到的概率 $\boldsymbol{p}=[0.1, 0.1, 0.2, 0.6]$

$\boldsymbol{p}$	概率值
$p(我\mid我, 爱, 中国)$	0.1
$p(爱\mid我, 爱, 中国)$	0.1
$p(中国\mid我, 爱, 中国)$	0.2
$p(共产党\mid我, 爱, 中国)$	0.6

$p (共产党 ∣ 我, 爱, 中国)$ 的概率最大，预测的词为：共产党

文章部分翻译

Abstract

pytorch API:

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/黑客灵魂/article/detail/912640

NLP经典论文：NNLM 笔记_nnlm 论文

NLP经典论文：NNLM 笔记

论文

介绍

优点

缺点

模型结构

整体模型

输入

输出

整体流程

输入层

输入

输出

隐藏层

输入

输出

输出层

输入

输出

过程

softmax结构

优化目标

交叉熵cross entropy loss

NNLM模型的优化目标

示例

文章部分翻译

Abstract

相关的笔记

相关代码

pytorch

tensorflow

keras

pytorch API: