赞
踩
原文链接:Gemma模型论文详解(附源码)
Gemma模型是在2023.2.21号Google新发布的大语言模型, Gemma复用了Gemini相同的技术(Gemini也是Google发布的多模态模型),Gemma这次发布了了2B和7B两个版本的参数,不仅提供了预训练的checkpoints,还提供了用于对话、指令跟随等fine-tune的checkpoints。在QA问答、常识。在11
Gemma模型使用了transformer decoder结构进行训练,训练的上下文大小为8192个token,模型参数如下:
相比原始transformer结构的区别:
Multi-Query Attention:7B模型使用了multi-head attention
,2B模型使用了multi-query attention (with
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。