Seq2Seq中的Attention详解_seq2seq中decoder对encoder的attention叫什么

作者：笔触狂放9 | 2024-07-23 13:12:37

踩

seq2seq中decoder对encoder的attention叫什么

Encoder-Decoder(Seq2Seq)

Encoder-Decoder结构先将输入数据编码成一个上下文向量 $c$
把Encoder的最后一个隐状态赋值给 $c$ ,还可以对最后的隐状态做一个变换得到 $c$ ，也可以对所有的隐状态做变换
拿到c之后，就用另一个RNN网络对其进行解码(Decoder),将c当做之前的初始状态 $h_{0}$ 输入到Decoder中
还有一种做法是将 $c$ 当做每一步的输入

Attention

在Encoder-Decoder结构中，Encoder把所有的输入序列都编码成一个统一的语义特征 $c$ 再解码，因此， $c$ 中必须包含原始序列中的所有信息，它的长度就成了限制模型性能的瓶颈
Attention机制通过在每个时间输入不同的 $c$ 来解决这个问题

每一个 $c$ 会自动去选取与当前所要输出的 $y$ 最合适的上下文信息。具体来说，我们用 $\alpha_{ij}$ 衡量Encoder中第 $j$ 阶段的 $h_{j}$ 和解码时第 $i$ 阶段的相关性，最终Decoder中第 $i$ 阶段的输入的上下文信息 $c_{i}$ 就来自于所有 $h_{j}$ 对 $\alpha_{ij}$ 的加权和。
$\alpha_{ij}$ 和Decoder的第 $i$ 阶段的隐藏状态、Encoder第 $j$ 个阶段的隐藏状态有关
在Encoder的过程中保留每个RNN单元的隐藏状态(hidden state)得到( $h_{1}$ … $h_{N}$ )，取 $h_{j}$ ，表示Encoder层的隐层第 $j$ 时刻的输出
在Decoder的过程中根据 $x_{i}$ 和 $h'_{i}$ (这里和Encoder的 $h_{i}$ 区分一下)得到 $h'_{i}$ ，设为 $s_{i}$
注：最开始的论文在Encoder-Decoder里面的当前Decoder的attention得分用的是 $s_{i-1}$ 和 $h_{j}$ 来算，但斯坦福教材上图上确实是画的 $s_{i}$ 和 $h_{j}$ 来算，而且后续论文大多是用的这种方式，即当前步的attention score用的当前步的隐藏状态 $s_{i}$ 和前面的 $h_{j}$ 去算的
通过Decoder的hidden states加上Encoder的hidden states来计算一个分数，用于计算权重
$e_{ij} = score(s_{i},h_{j})$
注：这里有很多计算方式
$\begin{matrix} s_{i}^{T} h_{j} \\ s_{i}^{T} W_{a} h_{j} \\ v_{a}^{T} t a n h (W_{a} [s_{i}^{T}; h_{j}]) \end{matrix}$
softmax权重归一化
$\alpha_{ij} = \frac{exp(e_{ij})}{\sum_{k=1}^{T_{x}}exp(e_{ik})}$
计算 $c$
$c_{i} = \sum_{j=1}^{T_{x}}\alpha_{ij}h_{j}$

Experiment

1115-1120 after data smoothing
T = 10
features = 70
train = all * 0.7
test = all * 0.3
1
2
3
4
5

Test RMSE: 3.955
Test nRMSE: 0.289
1
2

nasdaq100_padding
T = 10
features = 81
train = all * 0.7
test = all * 0.3
1
2
3
4
5

Encoder: LSTM
Decoder: LSTM
1
2

Test RMSE: 0.579
Test nRMSE: 0.105
1
2

Encoder: BiLSTM
Decoder: LSTM
1
2

Test RMSE: 0.384
Test nRMSE: 0.069
1
2

Encoder: GRU
Decoder: LSTM
1
2

Test RMSE: 0.252
Test nRMSE: 0.046
1
2

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/笔触狂放9/article/detail/870018