当前位置:   article > 正文

马斯克的 Grok-1 开源,3140亿参数目前最大开源模型,最佳实践教程来啦

马斯克的 Grok-1 开源,3140亿参数目前最大开源模型,最佳实践教程来啦

近几天开源社区最大的热点,莫过于埃隆马斯克信守承诺的最大开源模型Grok-1。

Grok-1 是一款 314B 大型专家混合 (Mixture of Expert,MoE) Transformer,作为基础模型,基于大量文本数据进行训练,没有针对任何具体任务进行微调,使用 JAX 库和 Rust 语言组成的自定义训练堆栈从头开始训练。

官方提供的详细模型参数如下:

  • 参数量: 3140亿

  • 架构: 8个混合专家模型(MoE),每个Token使用2个专家

  • 层数: 64层

  • 多头注意力: Q使用48个注意力头,K/V 使用8个注意力头

  • 嵌入尺寸: 6,144

  • 词表大小: 131,072个Tokens,采用SentencePiece 分词器

  • 使用RoPE位置编码

  • 支持激活分片和8位量化

  • 最大序列长度(上下文): 8,192个Tokens

模型性能方面,Grok-1官方发布的Benchmark超过GPT-3.5 和 LLaMa2 70B(MMLU 为73%,GMSK 为62.9%,HumanEval 为63.2%)

图片

话题中的模型效果如何,老规矩,我们向大家提供推理实践教程~

更多大模型实战案例


实践合集:《大模型实战宝典》(2024版)正式发布!


模型链接和下载

Grok-1模型在ModelScope社区可下载:

模型链接:https://www.modelscope.cn/models/AI-ModelScope/grok-1/summary

社区支持直接下载模型的repo:

from modelscope import snapshot_download
model_dir = snapshot_download("AI-ModelScope/grok-1")
  • 1
  • 2

Grok推理和评测

环境准备

Grok-1需要8卡A100运行。原始模型是Jax框架编写,因此使用魔搭默认镜像无法工作,为此需要使用Jax的镜像:

docker pull ghcr.io/nvidia/jax:jax
# 如果国内用户无法拉取上面的镜像可以使用我们转储的镜像
# docker pull registry.cn-wulanchabu.aliyuncs.com/ed/jax:1.0
  • 1
  • 2
  • 3

进入docker实例之后对grok代码库进行克隆:

git clone https://github.com/xai-org/grok-1.git
cd grok-1
pip install -r requirements.txt
# 修正Jax版本
pip install --upgrade "jax[cuda12_local]==0.4.23" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html
  • 1
  • 2
  • 3
  • 4
  • 5

运行推理可以直接使用官方提供的样例:

# cd grok-1
# 修改样例中的CKPT_PATH = "ModelScope下载的模型路径"
python run.py
  • 1
  • 2
  • 3

显存占用

图片

技术交流群

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

我们建了大模型算法岗技术与面试交流群, 想要进交流群、需要源码&资料、提升技术的同学,可以直接加微信号:mlc2060。加的时候备注一下:研究方向 +学校/公司+CSDN,即可。然后就可以拉你进群了。

方式①、微信搜索公众号:机器学习社区,后台回复:加群
方式②、添加微信号:mlc2060,备注:技术交流

实践合集:《大模型实战宝典》(2024版)正式发布!

用通俗易懂方式讲解系列

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/293955
推荐阅读
相关标签
  

闽ICP备14008679号