赞
踩
Introduction
循环:并行能力差,长距离时序的信息保存要么耗费内存,要么无法保存需要的信息。
transformer(attention):并行,绘制输入输出的全局依赖关系。
1.点积注意力便于矩阵乘法,更快。
2.而对于较小的dk值,这两种机制的表现相似,在dk[3]值较大的情况下,附加注意优于点积注意。我们怀疑,对于dk的大值,点积的幅度越来越大,将softmax函数推到梯度极小的区域4。为了抵消这种效应,我们用√1dk来缩放点积
3.多头注意允许模型共同关注来自不同位置的不同表示子空间的信息。用一个注意力头,平均抑制这个
4.我们通过屏蔽(设置为−∞)softmax输入中对应于非法连接的所有值来在缩放点积注意内部实现这一点
5.交互多头的KQV,Q来自解码,KV来自编码。
前馈神经:没什么好说的
Positional Encoding:正余弦实现,具体细节略。
复杂度表格:
Why Self-Attention
1.是每层的总计算复杂度。
2.是可以并行化的计算量,通过所需的最小顺序操作数量来衡量。
3.是网络中长期依赖关系之间的路径长度。学习长期依赖关系是许多序列转导任务中的一个关键挑战。影响学习这种依赖关系能力的一个关键因素是信号在网络中必须经过的向前和向后的路径的长度。在输入和输出序列中的任何位置组合之间的这些路径越短,就越容易学习长期依赖关系。因此,我们也比较了由不同层类型组成的网络中任意两个输入和输出位置之间的最大路径长度。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。