当前位置:   article > 正文

transfomer学习笔记

transfomer学习笔记

transfomer

一、摘要

主流的序列转换模型基于复杂的递归或卷积神经网络,其中包括一个编码器和一个解码器。性能最好的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构–“转换器”(Transformer)。跟RESNET一样,简单的架构有时候效果很好。完全基于注意力机制,无需递归和卷积

一开始为了解决机器翻译问题

结论

导言

RNN无法并行,时序比较长的话,前面的信息后面就丢掉了,如果想保留,只能做大HT,这样内存开销大。

RNN有和注意力结合的效果还行。作者完全抛弃循环,纯注意力。提高并行度

相关工作

用卷积神经网络替换掉循环神经网络。学习远距离位置之间的依赖关系变得更加困难。在Transformer中,这被减少到一个恒定的操作数量,注意力机制一层就能看到距离比较远的所有信息。卷积有多个输出通道,提出了多头注意力。自注意力

模型

输入输出长度不一定一样。解码的时候只能一个一个生成,过去时刻的输出也可以是当前的输入,这叫自回归。image-20231113210034948

编码器,六个层,两个子层加了残差连接,为了方便残差,每一层输出维度是512(和CNN不一样,CNN减少维度),两个参数512,6。

LayerNorm(x + Sublayer(x)),

image-20231113213338323

image-20231113213456984

算方差的话,batchnorm抖动比较大,要求全局的均值和方差。layernorm对针对样本算方差,要稳定一点。

解码器6层,解码器有第三个子层,做的自回归。注意力机制能看到完整的数据,但是当前输入不能来自未来的数字,t时刻不应该看到t时刻之后的数据。加了掩码mask。

注意力,输出是value的加权和,权重从哪里来。是value对应的key和q的相似度来的。kv不会变,根据q的变化改变权重。qk是等长的,v不一定。qk求内积除以根号dk,softmax,得到加和为1的权重。Q写成矩阵(nDK),K(DK**M),对每一行做softmax,V(M***DV),得到m.n的矩阵。

维度扩大四倍

实验

评论

DV),得到m.n的矩阵。

维度扩大四倍

实验

评论

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/一键难忘520/article/detail/906596
推荐阅读
相关标签
  

闽ICP备14008679号