当前位置:   article > 正文

2024最火热的大模型技术方向:MoE,国产MoE大模型大爆发!_大模型 base和instruct

大模型 base和instruct

2024最火热的大模型技术方向:MoE,国产MoE大模型大爆发!

混合专家架构的大语言模型在最近一段时间集中爆发!在2023年,Mistral-7B×8-MoE 模型发布之后,MoE架构模型吸引了大量的注意。

1. Mistral AI 开源首个MoE大模型 Mistral-7B×8-MoE

2023年12月8日,Mistral AI 在 X 平台甩出一条磁力链接后,首个开源MoE大模型 Mixtral 8x7B 火爆了AI社区。

1.1 Mistral-7B×8-MoE架构

Mistral-7B×8-MoE 是一个稀疏的混合专家网络,是一个纯解码器模型。基于Transformer的混合专家层,每层有8个前馈块(专家),一个路由网络在每层为每个token选择两个专家。

在这里插入图片描述

1.2 Mistral-7B×8-MoE性能

Mistral AI研究团队对Mixtral和Llama进行了对比研究,在多种不同的任务上进行了性能评估。

在所有基准测试中,我们可以看到:

  1. Mixtral 8x7B 模型在多个评测任务上表现优异,包括常识推理、世界知识、阅读理解、数学和代码生成等领域。
  2. Mixtral 8x7B 在多个基准测试中超越或匹配Llama 2 70B和GPT-3.5。
  3. 特别地,在数学和代码生成这两个任务上,Mixtral 8x7B 显著优于Llama 2 70B。

在这里插入图片描述

图注:Mixtral与不同参数的Llama模型在一系列基准测试中的性能对比
在这里插入图片描述

图注:Mixtral与Llama模型的详细性能比较结果

  1. 在多语言基准测试中,Mixtral 8x7B在处理法语、德语、西班牙语和意大利语时表现出色,超过了Llama 2 70B。

在这里插入图片描述

图注:Mixtral 8x7B在多语言基准测试中表现出色

  1. Mixtral-8x7B–Instruct为指令优化版本,在人类评估基准测试中超越了其他多个模型。

在这里插入图片描述

图注:LMSys 进行的独立人工评估结果

Mixtral 研究团队发布了 Mixtral - Instruct 模型,他们通过在一个指令数据集上使用监督微调(SFT),然后在配对的反馈数据集上采用直接偏好优化(DPO),对 Mixtral - Instruct 进行训练。

Mixtral - Instruct 在 MT-Bench 上的得分达到 8.30,成为截至 2023 年 12 月最好的开源权重模型。

图 6 显示了由 LMSys 进行的独立人工评估,结果显示 Mixtral - Instruct 的表现超越了 GPT-3.5-Turbo、Gemini Pro、Claude-2.1 和 Llama 2 70B chat模型。

三月底,业界开源了多个混合专家大模型,包括DBRX、Qwen1.5-MoE-A2.7B、Jamba等。

2. Databricks 开源1320亿参数的 DBRX

3 月 28 日, Databricks 开源了通用大模型 DBRX,这是一款拥有 1320 亿参数和 360亿 激活参数的混合专家模型(MoE),并支持 32k Tokens 的最长上下文长度,Base 和 Instruct 版本已经在 Github 和 Hugging Face 上发布。

DBRX 在语言理解、编程、数学和逻辑等方面轻松击败了目前业内领先的开源大模型,如LLaMA2-70B、Mixtral和 Grok-1。

在这里插入图片描述

DBRX 的整体性能超越GPT-3.5,尤其在编程方面,完全击败了GPT-3.5。

在这里插入图片描述

表 1 显示了 DBRX Instruct 和领先的开源模型比较结果。可以看出,DBRX Instruct 在两个综合基准(composite benchmarks)、编程和数学基准以及 MMLU 方面表现优越。

在这里插入图片描述

表 1. DBRX Instruct 和领先的开源模型比较

表 2 显示了 DBRX Instruct 和领先的闭源模型比较结果。DBRX Instruct 超越了 GPT-3.5(如 GPT-4 论文中所述),并且与 Gemini 1.0 Pro 和 Mistral Medium 具有相当的竞争力。

在这里插入图片描述

表 2.DBRX Instruct 与闭源模型的比较

DBRX 经対了 12T Tokens 的预训练,并提供了基础模型和指令遵循的微调模型,供研究和商业用途使用。该模型采用了细粒度的专家混合架构和先进技术,如旋转位置编码 (ROPE)和门控线性单元 (GLU),在大规模文本和代码数据上进行预训练,支持长达了2k Tokens的上下文长度。

在这里插入图片描述

企业可以在Databricks平台上访问DBRX,能在RAG系统中利用长上下文功能,还可以在自己的私有数据上构建定制的DBRX模型。

开源社区可以通过GitHub存储库和Hugging Face访问DBRX。

在这里插入图片描述

GitHub项目地址:https://github.com/databricks/dbrx
Hugging Face项目地址:https://huggingface.co/databricks

3. AI21 Labs开源Jamba:全球首个SSM-Transformer混合模型

3 月 29 日,AI21 Labs 开源首个基于 Mamba 架构的生产级别的大语言模型 Jamba,拥有 520亿 总参数和 120亿 活跃参数,是全球首个SSM-Transformer混合模型。

在这里插入图片描述

目前大部分的大模型(如GPT、Gemini 和 Llama)都是基于 Transformer 结构,而 Jamba 结合了 Mamba 结构化状态空间模型(SSM)和 传统Transformer 架构,兼具了高质量输出、高吞吐量和低内存占用的优点。该混合结构的模型提供了256K的上下文窗口,显著提升了处理长文本时的吞吐量和效率。

Mamba 结构由卡内基梅隆大学和普林斯顿大学的研究人员提出,主要解决 Transformer 内存占用大,随着上下文的增长推理速度变慢等问题,在 Jamba 推出之前,Mamba 用例更多停留在学术圈‍‍。

Jamba 的关键特点‍‍‍:

  1. 基于新颖的SSM-Transformer混合架构,是首个生产级Mamba模型。
  2. 在长文本上的吞吐量比 Mixtral 8x7B 模型高 3 倍。
  3. 支持高达256K的大规模上下文窗口,是目前同级别模型中唯一能在单个80GB GPU上容纳14万上下文的模型。

Jamba 在各种基准测试中均优于或与同尺寸级别的其他最先进型号相媲美。

在这里插入图片描述

Blog地址:https://www.ai21.com/blog/announcing-jamba
Mamba论文:Mamba: Linear-Time Sequence Modeling with Selective State Spaces
论文地址:https://arxiv.org/ftp/arxiv/papers/2312/2312.00752.pdf
Hugging Face地址:https://huggingface.co/ai21labs/Jamba-v0.1

4. 国产开源的MoE大模型有哪些?

国产开源的MoE架构模型并不多,目前只有阿里的通义千问、DeepSeek的DeepSeek LLM等,有相应的模型开源,但总参数规模都不超过200亿。

而4月初,深圳元象科技XVERSE开源了MoE大模型XVERSE-MoE-A4.2B,总参数量256亿,是当前国产开源MoE架构模型中总参数量最高的一个。

当前MoE模型普遍的几大特点是:

  1. 训练资源减少;
  2. 推理显存不变(与总参数数量持平);
  3. 推理速度变快;
  4. 性能超过推理使用的参数规模模型,但是低于总参数规模模型。

简言之,目前MoE模型最大的特点是用显存换速度!

4.1 幻方量化开源国内首个MoE大模型——DeepSeekMoE

2024年1月11日,幻方量化旗下组织深度求索发布了国内首个开源 MoE 大模型 —— DeepSeekMoE,采用全新架构,免费商用。

DeepSeekMoE在多尺度模型效果上均领先,包括DeepSeekMoE-2B、DeepSeekMoE-16B和DeepSeekMoE-145B。该模型是自研的全新MoE框架,主要包含细粒度专家划分和专家共享与分离两大创新。
在这里插入图片描述

图注:不同激活参数量的模型(横轴)在Open LLM Leaderboard上的效果(纵轴)

总体来看,DeepSeekMoE模型的评测结果一般,似乎不够理想,唯一的优点是推理速度更快。这个结论与Mixtral-8×7B-MoE效果还是存在一点差距的。

在这里插入图片描述

DeepSeekMoE 16B 在大部分数据集上的性能领先LLaMA2 7B,但仅用了40%计算量。
在这里插入图片描述

将 DeepSeekMoE 和 DeepSeekLLM 的基础版本,与 LLaMA2-7B 进行比较,可以发现:DeepSeekMoE 16B 的各项评测结果与70亿参数规模的 LLaMA2-7B 和 DeepSeek LLM 7B 差不多,但是其推理成本低很多。

在这里插入图片描述

图注:DeepSeek MoE 16B模型与DeepSeekLLM 7B的对比

4.2 通义千问开源首个 MoE 模型Qwen1.5-MoE

3 月 28 日,通义千问团队发布首个 MoE 模型 Qwen1.5-MoE-A2.7B,总的参数数量是143亿,但每次推理只使用 27亿 参数。与 Mistral 7B 和 Qwen1.5-7B 等最先进的7B模型的性能相媲美。

Qwen1.5-MoE-A2.7B 在参数数量上显著减少,仅为 Qwen1.5-7B 模型的三分之一,训练成本降低了 75%,推理速度则提升了 1.74 倍,展现了卓越的效率和性能。

在这里插入图片描述

Qwen1.5-MoE-A2.7B 采用了特别设计的MOE架构,包括每个transformer block中的8个expert,并引入了新的routing机制 DeepSeek-MOE,以及64个expert的finegrained experts设计。

阿里对MOE架构的几项修改:

  • 更加细粒度专家;
  • 非从头训练的“升级再利用”的初始化;
  • 带有共享和路由专家的路由机制。

Qwenl.5-MoE-A2.7B 在多个评估任务中表现出色,包括语言理解、数学和代码能力,以及多语言能力。

在这里插入图片描述

Qwen1.5-MoE-A2.7B 模型是允许免费商用的。

4.3 国产256亿参数MoE大模型——XVERSE-MoE-A4.2B

四月初,又一家国产大模型企业开源了一个全新的MoE架构的模型,即深圳元象科技XVERSE开源的XVERSE-MoE-A4.2B。该模型参数256亿,是当前国产开源MoE架构模型中总参数量最高的一个。该模型推理时仅激活42亿参数,效果可媲美13B模型。

XVERSE-MoE-A4.2B展现出两大优势:

  1. 极致压缩:用相同语料训练2.7万亿token,元象 MoE 实际 激活参数量4.2B,效果“跳级”超越 XVERSE-13B-2,仅用30%计算量,并减少50%训练时间

  2. 超凡性能:在多个权威评测中,元象 MoE 效果大幅超越新晋业界顶流谷歌Gemma-7B和Mistral-7B、Meta开源标杆Llama2-13B等多个模型、并接近超大模型 Llama1-65B。

在这里插入图片描述

图注:权威测试集评测结果

根据官方公布的数据, XVERSE-MoE-A4.2B 模型的评测结果与阿里的Qwen1.5-MoE-A2.7B接近,超过了DeepSeek-16B-MoE模型,与Mistral-7B、LLaMA2 34B等在同一个水平。

下载 XVERSE-MoE-A4.2B 大模型:

  • Hugging Face:https://huggingface.co/xverse/XVERSE-MoE-A4.2B
  • ModelScope 魔搭:https://modelscope.cn/models/xverse/XVERSE-MoE-A4.2B
  • Github:https://github.com/xverse-ai/XVERSE-MoE-A4.2B

目前国产的三个开源MoE架构模型参数对比如下:

在这里插入图片描述

从架构上对比,与此前的 Mixtral-8×7B-MoE 模型不同(8个专家,推理时激活2个),这三个国产MoE模型的架构很相似,都是采用非常多的小专家。

而与另外两个模型不同的是,XVERSE-MoE-A4.2B 固定了2个专家,每次推理的时候必然激活,而剩余的6个专家则是根据推理输入进行路由选择,这样做是为了保证模型在基础通用能力上获得对应的领域性能。

欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/小惠珠哦/article/detail/786064
推荐阅读
相关标签
  

闽ICP备14008679号