赞
踩
https://jishuin.proginn.com/p/763bfbd4ca4f
我最近研究发现了这个问题,一查还真有人说这个事情
这个论文间接的说明在残差中间的attention有可能没有必要
所以
使用了linner 代替这部分设计了一个transformer (留下相互解码的部分)
又设计了一个只使用(互相解码,其他的直接linner 解码后没有残差 )
结果就是后面的更好或者同样的效果但是效率没有只有MLP的高效在相同的任务上
也就是说残差基本也没有大作用
重点还是MLP
且双输出会比单输出要好
且softmax没有用,自注意力,本质是一个关系字典,如同新华字典一样
可以参考代码如下(乱了点)
https://blog.csdn.net/weixin_32759777/category_11446474.html
推理的时候屏蔽某一侧,这样方可互译使用
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。