当前位置:   article > 正文

为什么现在的LLM都是Decoder only的架构_decode only

decode only

结论:

LLM之所以主要都用Decoder-only架构,除了训练效率和工程实现上的优势外,在理论上是因为Encoder的双向注意力会存在低秩问题,这可能会削弱模型表达能力,就生成任务而言,引入双向注意力并无实质好处。而Encoder-Decoder架构之所以能够在某些场景下表现更好,大概只是因为它多了一倍参数。所以,在同等参数量、同等推理成本下,Decoder-only架构就是最优选择了。




为什么现在的LLM都是Decoder-only的架构? - 科学空间|Scientific Spaces

为什么现在的LLM都是Decoder only的架构? - 知乎 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/363045
推荐阅读
相关标签
  

闽ICP备14008679号