赞
踩
继2024年的Claude3大模型的推出,马斯克的AI创企xAI于2024年 3 月 17 日公布新的语言大模型Grok-1的基本模型权重和网络架构。该模型是一个具有3140 亿个参数的专家混合模型,相比于大模型 (Grok-0)的 330 亿个参数具有较大的提升 。据官网发布的对比信息,Announcing Grok
这个对比信息只对比了Claude2,但是没有对比前几天刚发布的Claude3,这有点小缺陷。
了Grok-1公布的代码和权重https://github.com/xai-org/grok-1,
该存储库包含用于加载和运行 Grok-1 开放权重模型的 JAX 示例代码。使用之前,用户需要确保先下载 checkpoint,并将 ckpt-0 目录放置在 checkpoint 中, 然后,运行下面代码进行测试:
- pip install -r requirements.txt
- python run.py
项目说明中明确强调,由于 Grok-1 是一个规模较大(314B 参数)的模型,因此需要有足够 GPU 内存的机器才能使用示例代码测试模型。此外,该存储库中 MoE 层的实现效率并不高,之所以选择该实现是为了避免需要自定义内核来验证模型的正确性。
用户可以使用 Torrent 客户端和这个磁力链接来下载权重文件:
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents
有网友开始好奇 314B 参数的 Grok-1 到底需要怎样的配置才能运行。对此有人给出答案:可能需要一台拥有 628 GB GPU 内存的机器(每个参数 2 字节)。这么算下来,8xH100(每个 80GB)就可以了。
跟多详细的信息可以查看一下华尔街见闻,写的更加详细。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。