赞
踩
大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普,AI工具测评,AI效率提升,AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。
北美时间3月17日,就在刚刚,马斯克的人工智能公司xAI已开源其大语言对话模型Grok-1!
3月11日,埃隆·马斯克表示xAI将开源其AI聊天机器人Grok。
3月17日的今天,3140亿(314B)参数的专家混合大型语言模型Grok-1已在GitHub上提供开放源代码版本,这将使研究人员和开发人员能够在该模型的基础上进行构建。Grok-1是一个未经特定应用微调的原始预训练模型,其训练基于JAX和Rust之上的定制训练栈。发布遵循Apache 2.0许可证,允许自由使用和修改。为了帮助用户入门,提供了GitHub页面上的详细指南。此外,博文还展示了一张由Midjourney生成的3D神经网络插图,该插图根据Grok提出的提示,以透明节点和发光连接来形象化模型中的权重分布。
模型介绍:
Grok-1是一个拥有3140亿(314B)参数的专家混合模型(Mixture-of-Experts, MoE)。
该模型由xAI公司从头开始训练,未使用任何特定应用的预训练数据集。
发布内容:
发布的是Grok-1模型的原始基础模型权重和网络架构。
这些资源是在Grok-1的预训练阶段结束时的检查点,该阶段于2023年10月完成。
由于模型没有针对特定应用进行微调,因此它可能不适用于直接的对话或其他特定任务。
许可协议:
权重和架构的发布遵循Apache 2.0许可证,这意味着它们可以被自由使用、修改和分发。
如何使用:
为了开始使用Grok-1模型,用户可以参考位于github.com/xai-org/grok的指南和文档。
模型细节:
Grok-1在大量文本数据上进行了训练,但并未针对任何特定任务进行优化。
在模型中,大约有25%的权重会在处理任何给定标记时活跃,这是专家混合模型的一个特点,其中不同的“专家”(即模型的不同部分)负责处理不同类型的信息。
训练工作是在2023年10月使用xAI的定制训练栈完成的,该训练栈建立在JAX和Rust之上。
封面图片:
博文的封面图片是通过Midjourney使用Grok提出的提示生成的。
图片展示了一个3D神经网络插图,其中节点是透明的,连接是发光的,并且连接线的粗细和颜色代表了权重的不同。
xAI博文地址:https://x.ai/blog/grok-os
Grok-1 Github地址:https://github.com/xai-org/grok-1
Grok-1数据集地址:https://academictorrents.com/details/5f96d43576e3d386c9ba65b883210a393b68210e
都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。