赞
踩
最近知乎上有这个问题:为什么现在的LLM都是Decoder only的架构?
稍微总结下:
从模型实用层面来说:
实验验证:
Google Brain 和 HuggingFace联合发表的 What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization? 曾经在5B的参数量级下对比了
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。