Google最强开源大模型Gemma亮相！笔记本就能跑__笔记_gemma7b d_model

作者：很楠不爱3 | 2024-04-16 08:08:57

踩

gemma7b d_model

2月21日，Google宣布开源了一个新的模型系列Gemma。这个模型使用了与它最强的Gemini同源的技术，并且在一系列的标准测试上优于几款今天最热门的开源模型。

根据Google官方的介绍，Gemma是一个大型语言模型，而非像Gemini那样是多模态的。它基于与Gemini相同的技术构建，主打开源和轻量级，免费可用、模型权重开源、允许商用，同时笔记本可跑。

1.版本

Gemma有2B和7B两个版本。7B版本参数量约78亿，面向GPU和TPU上的高效部署和开发；2B版本参数量约25亿，用于CPU和端侧应用程序。

两个版本都有预训练和指令微调版，可在Kaggle、Colab Notebook、Google Cloud中访问，而且支持JAX、PyTorch和TensorFlow通过原生Keras 3.0进行推理和监督式微调（SFT），适应多种开发需求和环境。

2.性能

Gemma-7B模型在涵盖通用语言理解、推理、数学和编程的8项基准测试中，性能超过了广泛使用的Llama-2 7B和13B模型。它在数学/科学和编程相关任务上，通常也超过了Mistral 7B模型的性能。

3.架构与参数

它基于Transformer解码器架构。Gemma-2B有18层，d_model为2048，而Gemma-7B有28层，d_model为3072。这些模型还具有不同的前馈隐藏维度、头数和KV头数，以及词汇量。

相比于基础Transformer，Gemma进行了一些升级。

7B版本使用多头注意力机制，2B版本使用多查询注意力机制。

在每一层中使用旋转位置嵌入代替绝对位置嵌入；使用GeGLU激活函数替代标准ReLU非线性。同时对每一个子层的输入和输出都进行归一化。

Gemma 2B/7B分别使用了2T和6T token进行训练，主要来自网络文档、数学和代码，不过这些数据不是多模态的。

为了兼容，谷歌使用了Gemini的SentencePiece tokenizer子集，它可以分割数字，不删除额外的空格，并对未知token进行字节级编码。

4.其他

有意思的是，在Google晒出的成绩对比中，阿里千问背后的模型Qwen系列表现也很亮眼：

原文：

谷歌最强开源大模型亮相：Gemini技术下放，笔记本就能跑，可商用_澎湃号·湃客_澎湃新闻-The Paper

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/很楠不爱3/article/detail/433150