当前位置:   article > 正文

LLM都是Decoder only的架构原因解读

decoder only

最近知乎上有这个问题:为什么现在的LLM都是Decoder only的架构?

稍微总结下:

从模型实用层面来说:

  1. Decoder-only架构计算高效:相对于Encoder-Decoder架构,Decoder-only架构不需要编码器先编码整个输入序列,所以训练推理速度更快。
  2. Decoder-only架构内存占用少:Encoder-Decoder架构由于编码器的特点,每个patch的sentence都需要用pad来补齐,Decoder only架构不需要,因此可以减少内存占用。
  3. Decoder-only架构良好的泛化能力:Decoder only架构通常使用自回归模型,即每个单词的预测都是基于之前生成的单词。这种方法可以更好地处理复杂的语言结构,并提高模型的泛化能力。


实验验证:

Google Brain 和 HuggingFace联合发表的 What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization? 曾经在5B的参数量级下对比了

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/363038?site
推荐阅读
相关标签
  

闽ICP备14008679号