赞
踩
d_model 是什么
d_model 是one_hot 向量经过 word embedding 之后的词向量维度。
batch normalization 和 layer normalization 的区别
batch normalization 是在batch维度,对输入的多个样本进行归一化;layer normalization 是在输入向量的维度,对样本自身的所有 features 进行归一化。
为什么要 padding
因为每个 batch 的输入序列的长度不一样,这样子网络无法进行处理,所以固定一个长度max_seq_len,然后对小于这个长度的向量进行 padding, 填充0。
具体的做法是,把这些位置的值加上一个非常大的负数(负无穷),这样的话,经过 softmax,这些位置的概率就会接近0!
Sequence mask 的作用
因为transformer在decoder端需要encoder的attention,但是又不能看到未来的消息,或者说,解码输出应该只能依赖于 t 时刻之前的输出。Sequence mask 用来将之后的输入信息进行隐藏。
具体做法为,产生一个上三角矩阵,上三角的值全为 1,下三角的值全为0,对角线是 1,因为当前时刻的输出和当前时刻也有关。
Positional Embedding 的作用
用来对输入的序列继续位置编码,使得transformer 可以提取序列顺序的信息,具体的哪种方法方法其实有待研究,论文中提到的并不是最优。得到的 Positional Embedding 向量是直接相加到 Word embedding 中的。
self attention 和 encoder-decoder attention
字面意思理解,self attention 就是自己的query和自己的key-value,encoder-decoder attention 就是自己的query和别人的key-value,所以在transformer中,就是指encoder-decoder 之间的 attention。
scaled dot-product attention?
这里包含三点,
用公式总的来描述就是:
Attention
(
Q
,
K
,
V
)
=
softmax
(
Q
K
T
d
k
)
V
\operatorname{Attention}(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d}_{k}}\right) V
Attention(Q,K,V)=softmax(d
kQKT)V
没有multi-head 机制下的
Q
、
K
、
V
Q、K、V
Q、K、V 的维度?
首先我们使用了 batch norm,那么第一个维度肯定就是 batch 的大小
B
B
B,
residual connection 的作用
增加了一项 x,那么该层网络对 x 求偏导的时候,多了一个常数项1。所以在反向传播过程中,梯度连乘,也不会造成梯度消失!。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。