Gemma模型论文详解（附源码）_gemma的最大长度序列是多少

作者：Gausst松鼠会 | 2024-04-04 22:03:18

踩

gemma的最大长度序列是多少

原文链接：Gemma模型论文详解（附源码）

1. 背景介绍

Gemma模型是在2023.2.21号Google新发布的大语言模型, Gemma复用了Gemini相同的技术(Gemini也是Google发布的多模态模型)，Gemma这次发布了了2B和7B两个版本的参数，不仅提供了预训练的checkpoints，还提供了用于对话、指令跟随等fine-tune的checkpoints。在QA问答、常识。在11

在这里插入图片描述

2. 模型介绍

2.1 模型结构

Gemma模型使用了transformer decoder结构进行训练，训练的上下文大小为8192个token，模型参数如下：
在这里插入图片描述

相比原始transformer结构的区别：

Multi-Query Attention：7B模型使用了multi-head attention，2B模型使用了multi-query attention (with
声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/361421

推荐阅读

相关标签