LLM - 理解主流大模型 LLM 都使用 Decoder Only 架构的原因 (总结8点)

作者：秋刀鱼在做梦 | 2024-08-09 14:33:43

踩

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://spike.blog.csdn.net/article/details/140929565

免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。

目前，主流的基础模型(Foundation Model) LLM 已经都是 Decoder Only 架构，T5 的最大模型只有11B，GLM-3 以及 GLM-4 都是 Decoder-Only 的架构。

Decoder Only 模式泛化性更好的理论原因：

Decoder Only 的训练难度更大，Decoder Only 架构 + Next Token Prediction 预训练，每个位置接触的信息更少，预测下一个 Token 的难度更高，模型足够大，数据足够多时，Decoder Only 模型学习的通用表征上限更高。
Decoder Only 具有隐式的位置编码能力，Causal Attention 打破 Transformer 的位置不变性，而带有双向 Attention 的模型，如果不带有位置编码，双向 Attention 的部分 Token 对换位置也不会改变表示，对于语序的区分能力较弱。
D

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/953755

LLM - 理解 主流大模型 LLM 都使用 Decoder Only 架构的原因 (总结8点)