赞
踩
2024.3.17,马斯克的Grok-1正式在GitHub上开源发布了。在当前的开源社区里,Grok-1是基于transformer模型最强的实现,比之前Facebook开源发布的LLama 2要强不少。
2000多行python code,3140亿参数模型。
Grok-1大体看起来跟GPT-3.5稍微强一点点,比LLama 2 70B强不少,比GPT-4还是弱不少。
LLama 2: 70 billion,700亿
GPT-3.5:>= 175 billion,没有公开,但GPT-3 是1750亿
Grok-1: 314 Billion,3140亿
GPT-4:~1,500 BIllion,没有公开,传言1.5万亿
ckpt-0
目录放入checkpoints,接近300GB。
磁力链接
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
pip install -r requirements.txt
python run.py
该脚本在测试输入上加载模型中的检查点和样本。
由于模型规模较大(314B参数),需要有足够GPU内存的机器才能使用示例代码测试模型。该存储库中 MoE 层的实现效率不高。选择该实现是为了避免需要自定义内核来验证模型的正确性。
这张封面图片是使用Midjourney根据Grok提出的以下提示生成的:一个神经网络的三维插图,具有透明的节点和发光的连接,通过不同粗细和颜色的连接线展示不同的权重。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。