LLM都是Decoder only的架构原因解读

作者：羊村懒王 | 2024-04-05 03:32:08

踩

decoder only

稍微总结下：

从模型实用层面来说：

Decoder-only架构计算高效：相对于Encoder-Decoder架构，Decoder-only架构不需要编码器先编码整个输入序列，所以训练推理速度更快。
Decoder-only架构内存占用少：Encoder-Decoder架构由于编码器的特点，每个patch的sentence都需要用pad来补齐，Decoder only架构不需要，因此可以减少内存占用。
Decoder-only架构良好的泛化能力：Decoder only架构通常使用自回归模型,即每个单词的预测都是基于之前生成的单词。这种方法可以更好地处理复杂的语言结构，并提高模型的泛化能力。

实验验证：

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/羊村懒王/article/detail/363038?site