transformer坑了多少算力_transformer 对算力的要i求

作者：知新_RL | 2024-07-24 13:53:57

踩

transformer 对算力的要i求

https://jishuin.proginn.com/p/763bfbd4ca4f
1

我最近研究发现了这个问题，一查还真有人说这个事情
这个论文间接的说明在残差中间的attention有可能没有必要
所以
使用了linner 代替这部分设计了一个transformer （留下相互解码的部分）
又设计了一个只使用（互相解码，其他的直接linner 解码后没有残差）
结果就是后面的更好或者同样的效果但是效率没有只有MLP的高效在相同的任务上
也就是说残差基本也没有大作用
重点还是MLP
且双输出会比单输出要好
且softmax没有用，自注意力，本质是一个关系字典，如同新华字典一样
可以参考代码如下（乱了点）
https://blog.csdn.net/weixin_32759777/category_11446474.html
在这里插入图片描述
推理的时候屏蔽某一侧，这样方可互译使用

在这里插入图片描述

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】