当前位置:   article > 正文

一周最新开源:Stability、Mistral再开源,3个MoE大模型DBRX、Jamba、Qwen1.5-MoE-A2.7B接连开源

一周最新开源:Stability、Mistral再开源,3个MoE大模型DBRX、Jamba、Qwen1.5-MoE-A2.7B接连开源

一周最新开源:Stability、Mistral再开源,3个MoE大模型DBRX、Jamba、Qwen1.5-MoE-A2.7B接连开源

上周,Stability AI 开源 Stable Code Instruct-3B,Mistral AI 宣布 Mistral 7B v0.2 Base Model,Databricks 开源了其 MoE 模型 DBRX,通义千问团队发布 MoE 模型:Qwen1.5-MoE-A2.7B,AI21 Labs 宣布开源 MoE 大模型 Jamba。

1. Stability AI开源代码模型Stable Code Instruct 3B

3 月 25 日,Stability AI 开源了小体量预训练模型 Stable Code Instruct 3B。这是一个基于 Stable Code 3B 的指令调整编码语言模型。给出自然语言 prompt,该模型可以处理各种任务,例如代码生成、数学和其他软件工程相关的任务。Stable Code Instruct 3B 增强了代码补全能力,还支持自然语言交互,旨在提高编程和软件开发相关任务的效率和直观性。

在这里插入图片描述

Stable Code Instruct 3B 实际有27亿参数,在1.3万亿个多样化的文本和代码数据集上进行预训练,用于代码补全、Debug等代码生成任务。

Stable Code Instruct 3B 根据 Stack Overflow 2023开发者调查的结果,将训练专注于Python、Javascript、 Java、C、Ct+和Go等18种编程语言。

Stable Code Instruct 3B 在代码处理精准度、自然语言识别及多种编程语言的处理能力上都有出色表现。

在MultiPL-E基准测试中,Stable Code Instruct 3B 展示了与同类模型相比的最先进性能。尤其在软件工程相关的任务上,Stable Code Instruct 3B 的表现甚至超过了规模更大的模型,比如 CodeLlama Instruct 7B 和 DeepSeek-Coder Instruct 1.3B。此外,Stable Code Instruct 3B 的性能与 StarChat 15B 相当。

在这里插入图片描述

根据Stability AI公司的介绍,Stable Code Instruct 3B的主要功能包括:

  1. 根据代码上下文自动产生代码;

  2. 根据相关代码场景,自动插入和补充代码;

  3. 能够生成与数据库交互的代码;

  4. 支持将代码从一种编程语言翻译为另一种编程语言;

  5. 对原有代码进行功能注释;

  6. 可根据用户需求生成新的代码。

在这里插入图片描述

模型测试地址:https://huggingface.co/spaces/stabilityai/stable-code-instruct-3b

Stable Code Instruct 3B是开源的,但是商业使用则需要拥有Stability AI的会员资格。

2. Mistral AI 开源 Mistral 7B v0.2 基模型,支持32K上下文

3月25日,Mistral AI 在一个名为 Cerebral Valley 的黑客松活动上宣布开源 Mistral-7B-v0.2 Base Model。

Mistral-7B-v0.2 是 Mistral AI 最新开源的70亿参数基座大语言模型,是此前Mistral-7B-v0.1 的升级版本。

此次更新主要包括三个方面:① 将 8K 上下文提到了 32K;② Rope Theta = 1e6;③ 取消滑动窗口。

在这里插入图片描述

下载链接:https://models.mistralcdn.com/mistral-7b-v0-2/mistral-7B-v0.2.tar
项目入口:https://top.aibase.com/tool/mistral-7b-instruct-v0-2

官方也有一个图来对 Mistral-7B-Instruct-v0.2 与其它模型的区别:

在这里插入图片描述


接连3天,业界有3个重磅的MoE技术大模型开源,包括 DBRX、Jamba 和阿里的Qwen1.5-MoE-A2.7B。

3. Databricks 开源1320亿参数的 DBRX

3 月 28 日, Databricks 开源了通用大模型 DBRX,这是一款拥有 1320 亿参数和 360亿 激活参数的混合专家模型(MoE),并支持 32k Tokens 的最长上下文长度,Base 和 Instruct 版本已经在 Github 和 Hugging Face 上发布。

DBRX 在语言理解、编程、数学和逻辑等方面轻松击败了目前业内领先的开源大模型,如LLaMA2-70B、Mixtral和 Grok-1。

在这里插入图片描述

DBRX 的整体性能超越GPT-3.5,尤其在编程方面,完全击败了GPT-3.5。

在这里插入图片描述

表 1 显示了 DBRX Instruct 和领先的开源模型比较结果。可以看出,DBRX Instruct 在两个综合基准(composite benchmarks)、编程和数学基准以及 MMLU 方面表现优越。

在这里插入图片描述

表 1. DBRX Instruct 和领先的开源模型比较

表 2 显示了 DBRX Instruct 和领先的闭源模型比较结果。DBRX Instruct 超越了 GPT-3.5(如 GPT-4 论文中所述),并且与 Gemini 1.0 Pro 和 Mistral Medium 具有相当的竞争力。

在这里插入图片描述

表 2.DBRX Instruct 与闭源模型的比较

DBRX 经対了 12T Tokens 的预训练,并提供了基础模型和指令遵循的微调模型,供研究和商业用途使用。该模型采用了细粒度的专家混合架构和先进技术,如旋转位置编码 (ROPE)和门控线性单元 (GLU),在大规模文本和代码数据上进行预训练,支持长达了2k Tokens的上下文长度。

在这里插入图片描述

企业可以在Databricks平台上访问DBRX,能在RAG系统中利用长上下文功能,还可以在自己的私有数据上构建定制的DBRX模型。

开源社区可以通过GitHub存储库和Hugging Face访问DBRX。

在这里插入图片描述

GitHub项目地址:https://github.com/databricks/dbrx
Hugging Face项目地址:https://huggingface.co/databricks

4. 通义千问开源首个 MoE 模型Qwen1.5-MoE

3 月 28 日,通义千问团队发布首个 MoE 模型 Qwen1.5-MoE-A2.7B,总的参数数量是143亿,但每次推理只使用 27亿 参数。与 Mistral 7B 和 Qwen1.5-7B 等最先进的7B模型的性能相媲美。

Qwen1.5-MoE-A2.7B 在参数数量上显著减少,仅为 Qwen1.5-7B 模型的三分之一,训练成本降低了 75%,推理速度则提升了 1.74 倍,展现了卓越的效率和性能。

在这里插入图片描述

Qwen1.5-MoE-A2.7B 采用了特别设计的MOE架构,包括每个transformer block中的8个expert,并引入了新的routing机制 DeepSeek-MOE,以及64个expert的finegrained experts设计。

阿里对MOE架构的几项修改:

  • 更加细粒度专家;
  • 非从头训练的“升级再利用”的初始化;
  • 带有共享和路由专家的路由机制。

Qwenl.5-MoE-A2.7B 在多个评估任务中表现出色,包括语言理解、数学和代码能力,以及多语言能力。

在这里插入图片描述

Qwen1.5-MoE-A2.7B 模型是允许免费商用的。不过由于最新的transformers代码没有合入这个模型,所以想要使用的话需要从GitHub下载源码进行编译安装后才能使用。

5. AI21 Labs开源Jamba:全球首个SSM-Transformer混合模型

3 月 29 日,AI21 Labs 开源首个基于 Mamba 架构的生产级别的大语言模型 Jamba,拥有 520亿 总参数和 120亿 活跃参数,是全球首个SSM-Transformer混合模型。

在这里插入图片描述

目前大部分的大模型(如GPT、Gemini 和 Llama)都是基于 Transformer 结构,而 Jamba 结合了 Mamba 结构化状态空间模型(SSM)和 传统Transformer 架构,兼具了高质量输出、高吞吐量和低内存占用的优点。该混合结构的模型提供了256K的上下文窗口,显著提升了处理长文本时的吞吐量和效率。

Mamba 结构由卡内基梅隆大学和普林斯顿大学的研究人员提出,主要解决 Transformer 内存占用大,随着上下文的增长推理速度变慢等问题,在 Jamba 推出之前,Mamba 用例更多停留在学术圈‍‍。

Jamba 的关键特点‍‍‍:

  1. 基于新颖的SSM-Transformer混合架构,是首个生产级Mamba模型。
  2. 在长文本上的吞吐量比 Mixtral 8x7B 模型高 3 倍。
  3. 支持高达256K的大规模上下文窗口,是目前同级别模型中唯一能在单个80GB GPU上容纳14万上下文的模型。

Jamba 在各种基准测试中均优于或与同尺寸级别的其他最先进型号相媲美。

在这里插入图片描述

Blog地址:https://www.ai21.com/blog/announcing-jamba
Mamba论文:Mamba: Linear-Time Sequence Modeling with Selective State Spaces
论文地址:https://arxiv.org/ftp/arxiv/papers/2312/2312.00752.pdf
Hugging Face地址:https://huggingface.co/ai21labs/Jamba-v0.1

参考:https://stability.ai/news/introducing-stable-code-instruct-3b?ref=top.aibase.com

欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/492003
推荐阅读
相关标签
  

闽ICP备14008679号