神经网络基础 —— Seq2Seq的应用_seq1的优先级高于seq2怎么用

作者：Guff_9hys | 2024-07-23 12:58:34

踩

seq1的优先级高于seq2怎么用

文章目录

1. 普通的Seq2Seq
- 1.1 产生句子
- 1.2 产生图片
2. 编码器解码器

1. 普通的Seq2Seq

1.1 产生句子

其实在上一节内容LSTM与GRU写歌词的应用就是一个普通的Seq2Seq应用， $t - 1$ 时刻的输出作为 $t$ 时刻的输入，如果想停止，则在训练集中加入停止符，一起训练即可。具体结构如下：

在这里插入图片描述

1.2 产生图片

每一个pixel都看成一个词汇，那么一张图可以描绘成：

在这里插入图片描述
那么可以描述成：蓝、红、黄、灰、黑、蓝、绿、绿、蓝。

有一种专门产生图片的RNN——PixelRNN
其实在一个图像中，第一行黄色的pixel与第二行灰色的pixel相差很远，二者之间并没有什么关联，那么PixelRNN的做法是：
在这里插入图片描述

2. 编码器解码器

2.1 详细流程

以下内容来自动手学深度学习。

2.2.1 编码器

编码器的作用是把一个不定长的输入序列变换成一个定长的背景变量 $\boldsymbol{c}$ ，并在该背景变量中编码输入序列信息。常用的编码器是循环神经网络。

让我们考虑批量大小为1的时序数据样本。假设输入序列是 $x_1,\ldots,x_T$ ，例如 $x_i$ 是输入句子中的第 $i$ 个词。在时间步 $t$ ，循环神经网络将输入 $x_t$ 的特征向量 $\boldsymbol{x}_t$ 和上个时间步的隐藏状态 $\boldsymbol{h}_{t-1}$ 变换为当前时间步的隐藏状态 $\boldsymbol{h}_t$ 。我们可以用函数 $f$ 表达循环神经网络隐藏层的变换：

$\boldsymbol{h}_t = f(\boldsymbol{x}_t, \boldsymbol{h}_{t-1}).$
接下来，编码器通过自定义函数q将各个时间步的隐藏状态变换为背景变量

$\boldsymbol{c} = q(\boldsymbol{h}_1, \ldots, \boldsymbol{h}_T).$
例如，当选择 $q(\boldsymbol{h}_1, \ldots, \boldsymbol{h}_T) = \boldsymbol{h}_T$ 时，背景变量是输入序列最终时间步的隐藏状态 $\boldsymbol{h}_T$ 。

以上描述的编码器是一个单向的循环神经网络，每个时间步的隐藏状态只取决于该时间步及之前的输入子序列。我们也可以使用双向循环神经网络构造编码器。在这种情况下，编码器每个时间步的隐藏状态同时取决于该时间步之前和之后的子序列（包括当前时间步的输入），并编码了整个序列的信息。

2.2.2 解码器

刚刚已经介绍，编码器输出的背景变量 $\boldsymbol{c}$ 编码了整个输入序列 $x_1, \ldots, x_T$ 的信息。给定训练样本中的输出序列 $y_1, y_2, \ldots, y_{T'}$ ，对每个时间步 $t^{'}$ （符号与输入序列或编码器的时间步 $t$ 有区别），解码器输出 $y_{t'}$ 的条件概率将基于之前的输出序列 $y_1,\ldots,y_{t'-1}$ 和背景变量 $\boldsymbol{c}$ ，即 $P(y_{t'} \mid y_1, \ldots, y_{t'-1}, \boldsymbol{c})$ 。

为此，我们可以使用另一个循环神经网络作为解码器。在输出序列的时间步 $t^\prime$ ，解码器将上一时间步的输出 $y_{t^\prime-1}$ 以及背景变量 $\boldsymbol{c}$ 作为输入，并将它们与上一时间步的隐藏状态 $\boldsymbol{s}_{t^\prime-1}$ 变换为当前时间步的隐藏状态 $\boldsymbol{s}_{t^\prime}$ 。因此，我们可以用函数 $g$ 表达解码器隐藏层的变换：

$\boldsymbol{s}_{t^\prime} = g(y_{t^\prime-1}, \boldsymbol{c}, \boldsymbol{s}_{t^\prime-1}).$
有了解码器的隐藏状态后，我们可以使用自定义的输出层和softmax运算来计算 $P(y_{t^\prime} \mid y_1, \ldots, y_{t^\prime-1}, \boldsymbol{c})$ ，例如，基于当前时间步的解码器隐藏状态 $\boldsymbol{s}_{t^\prime}$ 、上一时间步的输出 $y_{t^\prime-1}$ 以及背景变量 $\boldsymbol{c}$ 来计算当前时间步输出 $y_{t^\prime}$ 的概率分布。

2.2.3 训练模型

根据最大似然估计，我们可以最大化输出序列基于输入序列的条件概率

$\begin{aligned} P(y_1, \ldots, y_{T'} \mid x_1, \ldots, x_T) &= \prod_{t'=1}^{T'} P(y_{t'} \mid y_1, \ldots, y_{t'-1}, x_1, \ldots, x_T)\\ &= \prod_{t'=1}^{T'} P(y_{t'} \mid y_1, \ldots, y_{t'-1}, \boldsymbol{c}), \end{aligned}$
并得到该输出序列的损失： $\log P(y_1, \ldots, y_{T'} \mid x_1, \ldots, x_T) = -\sum_{t'=1}^{T'} \log P(y_{t'} \mid y_1, \ldots, y_{t'-1}, \boldsymbol{c}),$
在模型训练中，所有输出序列损失的均值通常作为需要最小化的损失函数。在下图所描述的模型预测中，我们需要将解码器在上一个时间步的输出作为当前时间步的输入。与此不同，在训练中我们也可以将标签序列（训练集的真实输出序列）在上一个时间步的标签作为解码器在当前时间步的输入。这叫作强制教学（teacher forcing）。
在这里插入图片描述

2.2 图片描述

假设要描述这样一张图片，要求机器输出图片描述的内容。
在这里插入图片描述
大致思路为：先使用CNN的方法将其变成一个Vector，然后将Vector输入到RNN的timestamps中。

在这里插入图片描述

2.3 文本翻译

使用Encoder-Decoder进行机器翻译。
在这里插入图片描述

2.4 问答

需要两层LSTM网络：

第一层用于处理每一次对话的内容，基于当前内容生成对话。

第二层网络用于记录对话的上下文主题，然后将主题和当前对话内容同时输入到解码器中，得到最后结果。
在这里插入图片描述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Guff_9hys/article/detail/869962