赞
踩
简单了解[LeCun狂赞:600刀GPT-3.5平替! 斯坦福70亿参数「羊驼」爆火,LLaMA杀疯了]
论文原文:https://arxiv.org/abs/2302.13971v1
模型就是用的transformer的decoder,模型设计的不同点在于:
删除了绝对位置嵌入,而是在网络的每一层添加了Sujianlin等人(2021)引入的旋转位置嵌入(RoPE)。
现阶段被大多数模型采用的位置编码方案,具有很好的外推性。
采用SwiGLU;Feedforward变化为(8/3)倍的隐含层大小,即2/3*4d而不是4d。
SwiGLU激活函数:
Swish=x⋅sigmoid(βx)
源于PaLM中使用的[SwiGLU激活函数]
同GPT3。
Pre-Normalization
RMS Pre-Norm
不同模型的超参数的详细信息。
使用AdamW优化器进行训练(Loshchilov和Hutter,2017),具有以下超参数:β1=0.9,β2=0.95。
使用余弦学习速率表,使得最终学习速率等于最大学习速率的10%。我们使用0.1的权重衰减和1.0的梯度裁剪。
使用2000个预热步骤,并根据模型的大小改变学习速度和批量大小。
GitHub - ymcui/Chinese-LLaMA-Alpaca
章节 | 描述 |
---|---|
⏬模型下载 | 中文LLaMA、Alpaca大模型下载地址 |
https://www.wpsshop.cn/w/weixin_40725706/article/detail/81233 推荐阅读 相关标签 Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。 |