赞
踩
主流的序列转换模型基于复杂的递归或卷积神经网络,其中包括一个编码器和一个解码器。性能最好的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构–“转换器”(Transformer)。跟RESNET一样,简单的架构有时候效果很好。完全基于注意力机制,无需递归和卷积
一开始为了解决机器翻译问题
RNN无法并行,时序比较长的话,前面的信息后面就丢掉了,如果想保留,只能做大HT,这样内存开销大。
RNN有和注意力结合的效果还行。作者完全抛弃循环,纯注意力。提高并行度
用卷积神经网络替换掉循环神经网络。学习远距离位置之间的依赖关系变得更加困难。在Transformer中,这被减少到一个恒定的操作数量,注意力机制一层就能看到距离比较远的所有信息。卷积有多个输出通道,提出了多头注意力。自注意力
输入输出长度不一定一样。解码的时候只能一个一个生成,过去时刻的输出也可以是当前的输入,这叫自回归。
编码器,六个层,两个子层加了残差连接,为了方便残差,每一层输出维度是512(和CNN不一样,CNN减少维度),两个参数512,6。
LayerNorm(x + Sublayer(x)),
算方差的话,batchnorm抖动比较大,要求全局的均值和方差。layernorm对针对样本算方差,要稳定一点。
解码器6层,解码器有第三个子层,做的自回归。注意力机制能看到完整的数据,但是当前输入不能来自未来的数字,t时刻不应该看到t时刻之后的数据。加了掩码mask。
注意力,输出是value的加权和,权重从哪里来。是value对应的key和q的相似度来的。kv不会变,根据q的变化改变权重。qk是等长的,v不一定。qk求内积除以根号dk,softmax,得到加和为1的权重。Q写成矩阵(nDK),K(DK**M),对每一行做softmax,V(M***DV),得到m.n的矩阵。
维度扩大四倍
DV),得到m.n的矩阵。
维度扩大四倍
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。