GPT和GPT2_gpt为什么不用encoder

作者：繁依Fanyi0 | 2024-07-31 13:15:24

踩

gpt为什么不用encoder

https://blog.csdn.net/weixin_48185819/article/details/106533850

https://zhuanlan.zhihu.com/p/174782647

https://wmathor.com/index.php/archives/1456/

我们知道transformer里有encoder层和decoder层，而GPT里主要用的是decoder层，不过做了一点改变，就是去掉了中间的Encoder-Decoder Attention层（因为没有encoder层，所以也就不需要Encoder-Decoder Attention这一层啦~）。也有人说用到的是encoder层，做的改变是将Multi-Head Attention换成了Masked Multi-Head Attention。

那么可能有人会问，这两种说法到底哪个正确呢？其实，这两种说法都对，因为仔细分析一下就会发现这两种说法是一个意思，不就是 Masked Multi-Head Attention + Feed Forward 嘛 ~ 如下图所示：
在这里插入图片描述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/909085