当前位置:   article > 正文

LLM - 理解 主流大模型 LLM 都使用 Decoder Only 架构的原因 (总结8点)

LLM - 理解 主流大模型 LLM 都使用 Decoder Only 架构的原因 (总结8点)

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/140929565

免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。


目前,主流的基础模型(Foundation Model) LLM 已经都是 Decoder Only 架构,T5 的最大模型只有11B,GLM-3 以及 GLM-4 都是 Decoder-Only 的架构。

Decoder Only 模式泛化性更好的理论原因:

  1. Decoder Only 的训练难度更大,Decoder Only 架构 + Next Token Prediction 预训练,每个位置接触的信息更少,预测下一个 Token 的难度更高,模型足够大,数据足够多时,Decoder Only 模型学习的通用表征上限更高。
  2. Decoder Only 具有隐式的位置编码能力,Causal Attention 打破 Transformer 的位置不变性,而带有双向 Attention 的模型,如果不带有位置编码,双向 Attention 的部分 Token 对换位置也不会改变表示,对于语序的区分能力较弱。
  3. D
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/953755
推荐阅读
相关标签
  

闽ICP备14008679号