当前位置: article > 正文

一周最新开源：Stability、Mistral再开源，3个MoE大模型DBRX、Jamba、Qwen1.5-MoE-A2.7B接连开源

作者：AllinToyou | 2024-04-26 16:26:30

踩

上周，Stability AI 开源 Stable Code Instruct-3B，Mistral AI 宣布 Mistral 7B v0.2 Base Model，Databricks 开源了其 MoE 模型 DBRX，通义千问团队发布 MoE 模型：Qwen1.5-MoE-A2.7B，AI21 Labs 宣布开源 MoE 大模型 Jamba。

1. Stability AI开源代码模型Stable Code Instruct 3B

3 月 25 日，Stability AI 开源了小体量预训练模型 Stable Code Instruct 3B。这是一个基于 Stable Code 3B 的指令调整编码语言模型。给出自然语言 prompt，该模型可以处理各种任务，例如代码生成、数学和其他软件工程相关的任务。Stable Code Instruct 3B 增强了代码补全能力，还支持自然语言交互，旨在提高编程和软件开发相关任务的效率和直观性。

在这里插入图片描述

Stable Code Instruct 3B 实际有27亿参数，在1.3万亿个多样化的文本和代码数据集上进行预训练，用于代码补全、Debug等代码生成任务。

Stable Code Instruct 3B 根据 Stack Overflow 2023开发者调查的结果，将训练专注于Python、Javascript、 Java、C、Ct+和Go等18种编程语言。

Stable Code Instruct 3B 在代码处理精准度、自然语言识别及多种编程语言的处理能力上都有出色表现。

在MultiPL-E基准测试中，Stable Code Instruct 3B 展示了与同类模型相比的最先进性能。尤其在软件工程相关的任务上，Stable Code Instruct 3B 的表现甚至超过了规模更大的模型，比如 CodeLlama Instruct 7B 和 DeepSeek-Coder Instruct 1.3B。此外，Stable Code Instruct 3B 的性能与 StarChat 15B 相当。

在这里插入图片描述

根据Stability AI公司的介绍，Stable Code Instruct 3B的主要功能包括：

根据代码上下文自动产生代码；
根据相关代码场景，自动插入和补充代码；
能够生成与数据库交互的代码；
支持将代码从一种编程语言翻译为另一种编程语言；
对原有代码进行功能注释；
可根据用户需求生成新的代码。

在这里插入图片描述

模型测试地址:https://huggingface.co/spaces/stabilityai/stable-code-instruct-3b

Stable Code Instruct 3B是开源的，但是商业使用则需要拥有Stability AI的会员资格。

2. Mistral AI 开源 Mistral 7B v0.2 基模型，支持32K上下文

3月25日，Mistral AI 在一个名为 Cerebral Valley 的黑客松活动上宣布开源 Mistral-7B-v0.2 Base Model。

Mistral-7B-v0.2 是 Mistral AI 最新开源的70亿参数基座大语言模型，是此前Mistral-7B-v0.1 的升级版本。

此次更新主要包括三个方面：① 将 8K 上下文提到了 32K；② Rope Theta = 1e6；③ 取消滑动窗口。

在这里插入图片描述

下载链接：https://models.mistralcdn.com/mistral-7b-v0-2/mistral-7B-v0.2.tar
项目入口：https://top.aibase.com/tool/mistral-7b-instruct-v0-2

官方也有一个图来对 Mistral-7B-Instruct-v0.2 与其它模型的区别：

在这里插入图片描述

接连3天，业界有3个重磅的MoE技术大模型开源，包括 DBRX、Jamba 和阿里的Qwen1.5-MoE-A2.7B。

3. Databricks 开源1320亿参数的 DBRX

3 月 28 日， Databricks 开源了通用大模型 DBRX，这是一款拥有 1320 亿参数和 360亿激活参数的混合专家模型（MoE），并支持 32k Tokens 的最长上下文长度，Base 和 Instruct 版本已经在 Github 和 Hugging Face 上发布。

DBRX 在语言理解、编程、数学和逻辑等方面轻松击败了目前业内领先的开源大模型，如LLaMA2-70B、Mixtral和 Grok-1。

在这里插入图片描述

DBRX 的整体性能超越GPT-3.5，尤其在编程方面，完全击败了GPT-3.5。

在这里插入图片描述

表 1 显示了 DBRX Instruct 和领先的开源模型比较结果。可以看出，DBRX Instruct 在两个综合基准（composite benchmarks）、编程和数学基准以及 MMLU 方面表现优越。

在这里插入图片描述

表 1. DBRX Instruct 和领先的开源模型比较

表 2 显示了 DBRX Instruct 和领先的闭源模型比较结果。DBRX Instruct 超越了 GPT-3.5（如 GPT-4 论文中所述），并且与 Gemini 1.0 Pro 和 Mistral Medium 具有相当的竞争力。

在这里插入图片描述

表 2.DBRX Instruct 与闭源模型的比较

DBRX 经対了 12T Tokens 的预训练，并提供了基础模型和指令遵循的微调模型，供研究和商业用途使用。该模型采用了细粒度的专家混合架构和先进技术，如旋转位置编码 (ROPE)和门控线性单元 (GLU)，在大规模文本和代码数据上进行预训练，支持长达了2k Tokens的上下文长度。

在这里插入图片描述

企业可以在Databricks平台上访问DBRX，能在RAG系统中利用长上下文功能，还可以在自己的私有数据上构建定制的DBRX模型。

开源社区可以通过GitHub存储库和Hugging Face访问DBRX。

在这里插入图片描述

GitHub项目地址：https://github.com/databricks/dbrx
Hugging Face项目地址：https://huggingface.co/databricks

4. 通义千问开源首个 MoE 模型Qwen1.5-MoE

3 月 28 日，通义千问团队发布首个 MoE 模型 Qwen1.5-MoE-A2.7B，总的参数数量是143亿，但每次推理只使用 27亿参数。与 Mistral 7B 和 Qwen1.5-7B 等最先进的7B模型的性能相媲美。

Qwen1.5-MoE-A2.7B 在参数数量上显著减少，仅为 Qwen1.5-7B 模型的三分之一，训练成本降低了 75%，推理速度则提升了 1.74 倍，展现了卓越的效率和性能。

在这里插入图片描述

Qwen1.5-MoE-A2.7B 采用了特别设计的MOE架构，包括每个transformer block中的8个expert，并引入了新的routing机制 DeepSeek-MOE，以及64个expert的finegrained experts设计。

阿里对MOE架构的几项修改：

更加细粒度专家；
非从头训练的“升级再利用”的初始化；
带有共享和路由专家的路由机制。

Qwenl.5-MoE-A2.7B 在多个评估任务中表现出色，包括语言理解、数学和代码能力，以及多语言能力。

在这里插入图片描述

Qwen1.5-MoE-A2.7B 模型是允许免费商用的。不过由于最新的transformers代码没有合入这个模型，所以想要使用的话需要从GitHub下载源码进行编译安装后才能使用。

5. AI21 Labs开源Jamba：全球首个SSM-Transformer混合模型

3 月 29 日，AI21 Labs 开源首个基于 Mamba 架构的生产级别的大语言模型 Jamba，拥有 520亿总参数和 120亿活跃参数，是全球首个SSM-Transformer混合模型。

在这里插入图片描述

目前大部分的大模型（如GPT、Gemini 和 Llama）都是基于 Transformer 结构，而 Jamba 结合了 Mamba 结构化状态空间模型（SSM）和传统Transformer 架构，兼具了高质量输出、高吞吐量和低内存占用的优点。该混合结构的模型提供了256K的上下文窗口，显著提升了处理长文本时的吞吐量和效率。

Mamba 结构由卡内基梅隆大学和普林斯顿大学的研究人员提出，主要解决 Transformer 内存占用大，随着上下文的增长推理速度变慢等问题，在 Jamba 推出之前，Mamba 用例更多停留在学术圈‍‍。

Jamba 的关键特点‍‍‍：

基于新颖的SSM-Transformer混合架构，是首个生产级Mamba模型。
在长文本上的吞吐量比 Mixtral 8x7B 模型高 3 倍。
支持高达256K的大规模上下文窗口，是目前同级别模型中唯一能在单个80GB GPU上容纳14万上下文的模型。

Jamba 在各种基准测试中均优于或与同尺寸级别的其他最先进型号相媲美。

在这里插入图片描述

Blog地址：https://www.ai21.com/blog/announcing-jamba
Mamba论文：Mamba: Linear-Time Sequence Modeling with Selective State Spaces
论文地址：https://arxiv.org/ftp/arxiv/papers/2312/2312.00752.pdf
Hugging Face地址：https://huggingface.co/ai21labs/Jamba-v0.1

参考：https://stability.ai/news/introducing-stable-code-instruct-3b?ref=top.aibase.com

欢迎各位关注我的个人微信公众号：HsuDan，我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/AllinToyou/article/detail/492003