小惠珠哦

这个屌丝很懒，什么也没留下！

热门标签

2024最火热的大模型技术方向：MoE，国产MoE大模型大爆发！_大模型 base和instruct

作者：小惠珠哦 | 2024-07-04 07:13:34

踩

大模型 base和instruct

2024最火热的大模型技术方向：MoE，国产MoE大模型大爆发！

混合专家架构的大语言模型在最近一段时间集中爆发！在2023年，Mistral-7B×8-MoE 模型发布之后，MoE架构模型吸引了大量的注意。

1. Mistral AI 开源首个MoE大模型 Mistral-7B×8-MoE

2023年12月8日，Mistral AI 在 X 平台甩出一条磁力链接后，首个开源MoE大模型 Mixtral 8x7B 火爆了AI社区。

1.1 Mistral-7B×8-MoE架构

Mistral-7B×8-MoE 是一个稀疏的混合专家网络，是一个纯解码器模型。基于Transformer的混合专家层，每层有8个前馈块（专家），一个路由网络在每层为每个token选择两个专家。

在这里插入图片描述

1.2 Mistral-7B×8-MoE性能

Mistral AI研究团队对Mixtral和Llama进行了对比研究，在多种不同的任务上进行了性能评估。

在所有基准测试中，我们可以看到：

Mixtral 8x7B 模型在多个评测任务上表现优异，包括常识推理、世界知识、阅读理解、数学和代码生成等领域。
Mixtral 8x7B 在多个基准测试中超越或匹配Llama 2 70B和GPT-3.5。
特别地，在数学和代码生成这两个任务上，Mixtral 8x7B 显著优于Llama 2 70B。

在这里插入图片描述

图注：Mixtral与不同参数的Llama模型在一系列基准测试中的性能对比
在这里插入图片描述

图注：Mixtral与Llama模型的详细性能比较结果

在多语言基准测试中，Mixtral 8x7B在处理法语、德语、西班牙语和意大利语时表现出色，超过了Llama 2 70B。

在这里插入图片描述

图注：Mixtral 8x7B在多语言基准测试中表现出色

Mixtral-8x7B–Instruct为指令优化版本，在人类评估基准测试中超越了其他多个模型。

在这里插入图片描述

图注：LMSys 进行的独立人工评估结果

Mixtral 研究团队发布了 Mixtral - Instruct 模型，他们通过在一个指令数据集上使用监督微调（SFT），然后在配对的反馈数据集上采用直接偏好优化（DPO），对 Mixtral - Instruct 进行训练。

Mixtral - Instruct 在 MT-Bench 上的得分达到 8.30，成为截至 2023 年 12 月最好的开源权重模型。

图 6 显示了由 LMSys 进行的独立人工评估，结果显示 Mixtral - Instruct 的表现超越了 GPT-3.5-Turbo、Gemini Pro、Claude-2.1 和 Llama 2 70B chat模型。

三月底，业界开源了多个混合专家大模型，包括DBRX、Qwen1.5-MoE-A2.7B、Jamba等。

2. Databricks 开源1320亿参数的 DBRX

3 月 28 日， Databricks 开源了通用大模型 DBRX，这是一款拥有 1320 亿参数和 360亿激活参数的混合专家模型（MoE），并支持 32k Tokens 的最长上下文长度，Base 和 Instruct 版本已经在 Github 和 Hugging Face 上发布。

DBRX 在语言理解、编程、数学和逻辑等方面轻松击败了目前业内领先的开源大模型，如LLaMA2-70B、Mixtral和 Grok-1。

在这里插入图片描述

DBRX 的整体性能超越GPT-3.5，尤其在编程方面，完全击败了GPT-3.5。

在这里插入图片描述

表 1 显示了 DBRX Instruct 和领先的开源模型比较结果。可以看出，DBRX Instruct 在两个综合基准（composite benchmarks）、编程和数学基准以及 MMLU 方面表现优越。

在这里插入图片描述

表 1. DBRX Instruct 和领先的开源模型比较

表 2 显示了 DBRX Instruct 和领先的闭源模型比较结果。DBRX Instruct 超越了 GPT-3.5（如 GPT-4 论文中所述），并且与 Gemini 1.0 Pro 和 Mistral Medium 具有相当的竞争力。

在这里插入图片描述

表 2.DBRX Instruct 与闭源模型的比较

DBRX 经対了 12T Tokens 的预训练，并提供了基础模型和指令遵循的微调模型，供研究和商业用途使用。该模型采用了细粒度的专家混合架构和先进技术，如旋转位置编码 (ROPE)和门控线性单元 (GLU)，在大规模文本和代码数据上进行预训练，支持长达了2k Tokens的上下文长度。

在这里插入图片描述

企业可以在Databricks平台上访问DBRX，能在RAG系统中利用长上下文功能，还可以在自己的私有数据上构建定制的DBRX模型。

开源社区可以通过GitHub存储库和Hugging Face访问DBRX。

在这里插入图片描述

GitHub项目地址：https://github.com/databricks/dbrx
Hugging Face项目地址：https://huggingface.co/databricks

3. AI21 Labs开源Jamba：全球首个SSM-Transformer混合模型

3 月 29 日，AI21 Labs 开源首个基于 Mamba 架构的生产级别的大语言模型 Jamba，拥有 520亿总参数和 120亿活跃参数，是全球首个SSM-Transformer混合模型。

在这里插入图片描述

目前大部分的大模型（如GPT、Gemini 和 Llama）都是基于 Transformer 结构，而 Jamba 结合了 Mamba 结构化状态空间模型（SSM）和传统Transformer 架构，兼具了高质量输出、高吞吐量和低内存占用的优点。该混合结构的模型提供了256K的上下文窗口，显著提升了处理长文本时的吞吐量和效率。

Mamba 结构由卡内基梅隆大学和普林斯顿大学的研究人员提出，主要解决 Transformer 内存占用大，随着上下文的增长推理速度变慢等问题，在 Jamba 推出之前，Mamba 用例更多停留在学术圈‍‍。

Jamba 的关键特点‍‍‍：

基于新颖的SSM-Transformer混合架构，是首个生产级Mamba模型。
在长文本上的吞吐量比 Mixtral 8x7B 模型高 3 倍。
支持高达256K的大规模上下文窗口，是目前同级别模型中唯一能在单个80GB GPU上容纳14万上下文的模型。

Jamba 在各种基准测试中均优于或与同尺寸级别的其他最先进型号相媲美。

在这里插入图片描述

Blog地址：https://www.ai21.com/blog/announcing-jamba
Mamba论文：Mamba: Linear-Time Sequence Modeling with Selective State Spaces
论文地址：https://arxiv.org/ftp/arxiv/papers/2312/2312.00752.pdf
Hugging Face地址：https://huggingface.co/ai21labs/Jamba-v0.1

4. 国产开源的MoE大模型有哪些？

国产开源的MoE架构模型并不多，目前只有阿里的通义千问、DeepSeek的DeepSeek LLM等，有相应的模型开源，但总参数规模都不超过200亿。

而4月初，深圳元象科技XVERSE开源了MoE大模型XVERSE-MoE-A4.2B，总参数量256亿，是当前国产开源MoE架构模型中总参数量最高的一个。

当前MoE模型普遍的几大特点是：

训练资源减少；
推理显存不变（与总参数数量持平）；
推理速度变快；
性能超过推理使用的参数规模模型，但是低于总参数规模模型。

简言之，目前MoE模型最大的特点是用显存换速度！

4.1 幻方量化开源国内首个MoE大模型——DeepSeekMoE

2024年1月11日，幻方量化旗下组织深度求索发布了国内首个开源 MoE 大模型 —— DeepSeekMoE，采用全新架构，免费商用。

DeepSeekMoE在多尺度模型效果上均领先，包括DeepSeekMoE-2B、DeepSeekMoE-16B和DeepSeekMoE-145B。该模型是自研的全新MoE框架，主要包含细粒度专家划分和专家共享与分离两大创新。
在这里插入图片描述

图注：不同激活参数量的模型（横轴）在Open LLM Leaderboard上的效果（纵轴）

总体来看，DeepSeekMoE模型的评测结果一般，似乎不够理想，唯一的优点是推理速度更快。这个结论与Mixtral-8×7B-MoE效果还是存在一点差距的。

在这里插入图片描述

DeepSeekMoE 16B 在大部分数据集上的性能领先LLaMA2 7B，但仅用了40%计算量。
在这里插入图片描述

将 DeepSeekMoE 和 DeepSeekLLM 的基础版本，与 LLaMA2-7B 进行比较，可以发现：DeepSeekMoE 16B 的各项评测结果与70亿参数规模的 LLaMA2-7B 和 DeepSeek LLM 7B 差不多，但是其推理成本低很多。

在这里插入图片描述

图注：DeepSeek MoE 16B模型与DeepSeekLLM 7B的对比

4.2 通义千问开源首个 MoE 模型Qwen1.5-MoE

3 月 28 日，通义千问团队发布首个 MoE 模型 Qwen1.5-MoE-A2.7B，总的参数数量是143亿，但每次推理只使用 27亿参数。与 Mistral 7B 和 Qwen1.5-7B 等最先进的7B模型的性能相媲美。

Qwen1.5-MoE-A2.7B 在参数数量上显著减少，仅为 Qwen1.5-7B 模型的三分之一，训练成本降低了 75%，推理速度则提升了 1.74 倍，展现了卓越的效率和性能。

在这里插入图片描述

Qwen1.5-MoE-A2.7B 采用了特别设计的MOE架构，包括每个transformer block中的8个expert，并引入了新的routing机制 DeepSeek-MOE，以及64个expert的finegrained experts设计。

阿里对MOE架构的几项修改：

更加细粒度专家；
非从头训练的“升级再利用”的初始化；
带有共享和路由专家的路由机制。

Qwenl.5-MoE-A2.7B 在多个评估任务中表现出色，包括语言理解、数学和代码能力，以及多语言能力。

在这里插入图片描述

Qwen1.5-MoE-A2.7B 模型是允许免费商用的。

4.3 国产256亿参数MoE大模型——XVERSE-MoE-A4.2B

四月初，又一家国产大模型企业开源了一个全新的MoE架构的模型，即深圳元象科技XVERSE开源的XVERSE-MoE-A4.2B。该模型参数256亿，是当前国产开源MoE架构模型中总参数量最高的一个。该模型推理时仅激活42亿参数，效果可媲美13B模型。

XVERSE-MoE-A4.2B展现出两大优势：

极致压缩：用相同语料训练2.7万亿token，元象 MoE 实际激活参数量4.2B，效果“跳级”超越 XVERSE-13B-2，仅用30%计算量，并减少50%训练时间。
超凡性能：在多个权威评测中，元象 MoE 效果大幅超越新晋业界顶流谷歌Gemma-7B和Mistral-7B、Meta开源标杆Llama2-13B等多个模型、并接近超大模型 Llama1-65B。

在这里插入图片描述

图注：权威测试集评测结果

根据官方公布的数据， XVERSE-MoE-A4.2B 模型的评测结果与阿里的Qwen1.5-MoE-A2.7B接近，超过了DeepSeek-16B-MoE模型，与Mistral-7B、LLaMA2 34B等在同一个水平。

下载 XVERSE-MoE-A4.2B 大模型：

Hugging Face：https://huggingface.co/xverse/XVERSE-MoE-A4.2B
ModelScope 魔搭：https://modelscope.cn/models/xverse/XVERSE-MoE-A4.2B
Github：https://github.com/xverse-ai/XVERSE-MoE-A4.2B

目前国产的三个开源MoE架构模型参数对比如下：

在这里插入图片描述

从架构上对比，与此前的 Mixtral-8×7B-MoE 模型不同（8个专家，推理时激活2个），这三个国产MoE模型的架构很相似，都是采用非常多的小专家。

而与另外两个模型不同的是，XVERSE-MoE-A4.2B 固定了2个专家，每次推理的时候必然激活，而剩余的6个专家则是根据推理输入进行路由选择，这样做是为了保证模型在基础通用能力上获得对应的领域性能。

欢迎各位关注我的个人微信公众号：HsuDan，我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

本文内容由网友自发贡献，转载请注明出处：https://www.wpsshop.cn/w/小惠珠哦/article/detail/786064