赞
踩
近几天开源社区最大的热点,莫过于埃隆马斯克信守承诺的最大开源模型Grok-1。
Grok-1 是一款 314B 大型专家混合 (Mixture of Expert,MoE) Transformer,作为基础模型,基于大量文本数据进行训练,没有针对任何具体任务进行微调,使用 JAX 库和 Rust 语言组成的自定义训练堆栈从头开始训练。
官方提供的详细模型参数如下:
参数量: 3140亿
架构: 8个混合专家模型(MoE),每个Token使用2个专家
层数: 64层
多头注意力: Q使用48个注意力头,K/V 使用8个注意力头
嵌入尺寸: 6,144
词表大小: 131,072个Tokens,采用SentencePiece 分词器
使用RoPE位置编码
支持激活分片和8位量化
最大序列长度(上下文): 8,192个Tokens
模型性能方面,Grok-1官方发布的Benchmark超过GPT-3.5 和 LLaMa2 70B(MMLU 为73%,GMSK 为62.9%,HumanEval 为63.2%)
话题中的模型效果如何,老规矩,我们向大家提供推理实践教程~
Grok-1模型在ModelScope社区可下载:
模型链接:https://www.modelscope.cn/models/AI-ModelScope/grok-1/summary
社区支持直接下载模型的repo:
from modelscope import snapshot_download
model_dir = snapshot_download("AI-ModelScope/grok-1")
环境准备
Grok-1需要8卡A100运行。原始模型是Jax框架编写,因此使用魔搭默认镜像无法工作,为此需要使用Jax的镜像:
docker pull ghcr.io/nvidia/jax:jax
# 如果国内用户无法拉取上面的镜像可以使用我们转储的镜像
# docker pull registry.cn-wulanchabu.aliyuncs.com/ed/jax:1.0
进入docker实例之后对grok代码库进行克隆:
git clone https://github.com/xai-org/grok-1.git
cd grok-1
pip install -r requirements.txt
# 修正Jax版本
pip install --upgrade "jax[cuda12_local]==0.4.23" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html
运行推理可以直接使用官方提供的样例:
# cd grok-1
# 修改样例中的CKPT_PATH = "ModelScope下载的模型路径"
python run.py
显存占用
前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~
我们建了大模型算法岗技术与面试交流群, 想要进交流群、需要源码&资料、提升技术的同学,可以直接加微信号:mlc2060。加的时候备注一下:研究方向 +学校/公司+CSDN,即可。然后就可以拉你进群了。
方式①、微信搜索公众号:机器学习社区,后台回复:加群
方式②、添加微信号:mlc2060,备注:技术交流
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。