赞
踩
混合专家架构的大语言模型在最近一段时间集中爆发!在2023年,Mistral-7B×8-MoE 模型发布之后,MoE架构模型吸引了大量的注意。
2023年12月8日,Mistral AI 在 X 平台甩出一条磁力链接后,首个开源MoE大模型 Mixtral 8x7B 火爆了AI社区。
Mistral-7B×8-MoE 是一个稀疏的混合专家网络,是一个纯解码器模型。基于Transformer的混合专家层,每层有8个前馈块(专家),一个路由网络在每层为每个token选择两个专家。
Mistral AI研究团队对Mixtral和Llama进行了对比研究,在多种不同的任务上进行了性能评估。
在所有基准测试中,我们可以看到:
图注:Mixtral与不同参数的Llama模型在一系列基准测试中的性能对比
图注:Mixtral与Llama模型的详细性能比较结果
图注:Mixtral 8x7B在多语言基准测试中表现出色
图注:LMSys 进行的独立人工评估结果
Mixtral 研究团队发布了 Mixtral - Instruct 模型,他们通过在一个指令数据集上使用监督微调(SFT),然后在配对的反馈数据集上采用直接偏好优化(DPO),对 Mixtral - Instruct 进行训练。
Mixtral - Instruct 在 MT-Bench 上的得分达到 8.30,成为截至 2023 年 12 月最好的开源权重模型。
图 6 显示了由 LMSys 进行的独立人工评估,结果显示 Mixtral - Instruct 的表现超越了 GPT-3.5-Turbo、Gemini Pro、Claude-2.1 和 Llama 2 70B chat模型。
三月底,业界开源了多个混合专家大模型,包括DBRX、Qwen1.5-MoE-A2.7B、Jamba等。
3 月 28 日, Databricks 开源了通用大模型 DBRX,这是一款拥有 1320 亿参数和 360亿 激活参数的混合专家模型(MoE),并支持 32k Tokens 的最长上下文长度,Base 和 Instruct 版本已经在 Github 和 Hugging Face 上发布。
DBRX 在语言理解、编程、数学和逻辑等方面轻松击败了目前业内领先的开源大模型,如LLaMA2-70B、Mixtral和 Grok-1。
DBRX 的整体性能超越GPT-3.5,尤其在编程方面,完全击败了GPT-3.5。
表 1 显示了 DBRX Instruct 和领先的开源模型比较结果。可以看出,DBRX Instruct 在两个综合基准(composite benchmarks)、编程和数学基准以及 MMLU 方面表现优越。
表 1. DBRX Instruct 和领先的开源模型比较
表 2 显示了 DBRX Instruct 和领先的闭源模型比较结果。DBRX Instruct 超越了 GPT-3.5(如 GPT-4 论文中所述),并且与 Gemini 1.0 Pro 和 Mistral Medium 具有相当的竞争力。
表 2.DBRX Instruct 与闭源模型的比较
DBRX 经対了 12T Tokens 的预训练,并提供了基础模型和指令遵循的微调模型,供研究和商业用途使用。该模型采用了细粒度的专家混合架构和先进技术,如旋转位置编码 (ROPE)和门控线性单元 (GLU),在大规模文本和代码数据上进行预训练,支持长达了2k Tokens的上下文长度。
企业可以在Databricks平台上访问DBRX,能在RAG系统中利用长上下文功能,还可以在自己的私有数据上构建定制的DBRX模型。
开源社区可以通过GitHub存储库和Hugging Face访问DBRX。
GitHub项目地址:https://github.com/databricks/dbrx
Hugging Face项目地址:https://huggingface.co/databricks
3 月 29 日,AI21 Labs 开源首个基于 Mamba 架构的生产级别的大语言模型 Jamba,拥有 520亿 总参数和 120亿 活跃参数,是全球首个SSM-Transformer混合模型。
目前大部分的大模型(如GPT、Gemini 和 Llama)都是基于 Transformer 结构,而 Jamba 结合了 Mamba 结构化状态空间模型(SSM)和 传统Transformer 架构,兼具了高质量输出、高吞吐量和低内存占用的优点。该混合结构的模型提供了256K的上下文窗口,显著提升了处理长文本时的吞吐量和效率。
Mamba 结构由卡内基梅隆大学和普林斯顿大学的研究人员提出,主要解决 Transformer 内存占用大,随着上下文的增长推理速度变慢等问题,在 Jamba 推出之前,Mamba 用例更多停留在学术圈。
Jamba 的关键特点:
Jamba 在各种基准测试中均优于或与同尺寸级别的其他最先进型号相媲美。
Blog地址:https://www.ai21.com/blog/announcing-jamba
Mamba论文:Mamba: Linear-Time Sequence Modeling with Selective State Spaces
论文地址:https://arxiv.org/ftp/arxiv/papers/2312/2312.00752.pdf
Hugging Face地址:https://huggingface.co/ai21labs/Jamba-v0.1
国产开源的MoE架构模型并不多,目前只有阿里的通义千问、DeepSeek的DeepSeek LLM等,有相应的模型开源,但总参数规模都不超过200亿。
而4月初,深圳元象科技XVERSE开源了MoE大模型XVERSE-MoE-A4.2B,总参数量256亿,是当前国产开源MoE架构模型中总参数量最高的一个。
当前MoE模型普遍的几大特点是:
简言之,目前MoE模型最大的特点是用显存换速度!
2024年1月11日,幻方量化旗下组织深度求索发布了国内首个开源 MoE 大模型 —— DeepSeekMoE,采用全新架构,免费商用。
DeepSeekMoE在多尺度模型效果上均领先,包括DeepSeekMoE-2B、DeepSeekMoE-16B和DeepSeekMoE-145B。该模型是自研的全新MoE框架,主要包含细粒度专家划分和专家共享与分离两大创新。
图注:不同激活参数量的模型(横轴)在Open LLM Leaderboard上的效果(纵轴)
总体来看,DeepSeekMoE模型的评测结果一般,似乎不够理想,唯一的优点是推理速度更快。这个结论与Mixtral-8×7B-MoE效果还是存在一点差距的。
DeepSeekMoE 16B 在大部分数据集上的性能领先LLaMA2 7B,但仅用了40%计算量。
将 DeepSeekMoE 和 DeepSeekLLM 的基础版本,与 LLaMA2-7B 进行比较,可以发现:DeepSeekMoE 16B 的各项评测结果与70亿参数规模的 LLaMA2-7B 和 DeepSeek LLM 7B 差不多,但是其推理成本低很多。
图注:DeepSeek MoE 16B模型与DeepSeekLLM 7B的对比
3 月 28 日,通义千问团队发布首个 MoE 模型 Qwen1.5-MoE-A2.7B,总的参数数量是143亿,但每次推理只使用 27亿 参数。与 Mistral 7B 和 Qwen1.5-7B 等最先进的7B模型的性能相媲美。
Qwen1.5-MoE-A2.7B 在参数数量上显著减少,仅为 Qwen1.5-7B 模型的三分之一,训练成本降低了 75%,推理速度则提升了 1.74 倍,展现了卓越的效率和性能。
Qwen1.5-MoE-A2.7B 采用了特别设计的MOE架构,包括每个transformer block中的8个expert,并引入了新的routing机制 DeepSeek-MOE,以及64个expert的finegrained experts设计。
阿里对MOE架构的几项修改:
Qwenl.5-MoE-A2.7B 在多个评估任务中表现出色,包括语言理解、数学和代码能力,以及多语言能力。
Qwen1.5-MoE-A2.7B 模型是允许免费商用的。
四月初,又一家国产大模型企业开源了一个全新的MoE架构的模型,即深圳元象科技XVERSE开源的XVERSE-MoE-A4.2B。该模型参数256亿,是当前国产开源MoE架构模型中总参数量最高的一个。该模型推理时仅激活42亿参数,效果可媲美13B模型。
XVERSE-MoE-A4.2B展现出两大优势:
极致压缩:用相同语料训练2.7万亿token,元象 MoE 实际 激活参数量4.2B,效果“跳级”超越 XVERSE-13B-2,仅用30%计算量,并减少50%训练时间。
超凡性能:在多个权威评测中,元象 MoE 效果大幅超越新晋业界顶流谷歌Gemma-7B和Mistral-7B、Meta开源标杆Llama2-13B等多个模型、并接近超大模型 Llama1-65B。
图注:权威测试集评测结果
根据官方公布的数据, XVERSE-MoE-A4.2B 模型的评测结果与阿里的Qwen1.5-MoE-A2.7B接近,超过了DeepSeek-16B-MoE模型,与Mistral-7B、LLaMA2 34B等在同一个水平。
下载 XVERSE-MoE-A4.2B 大模型:
目前国产的三个开源MoE架构模型参数对比如下:
从架构上对比,与此前的 Mixtral-8×7B-MoE 模型不同(8个专家,推理时激活2个),这三个国产MoE模型的架构很相似,都是采用非常多的小专家。
而与另外两个模型不同的是,XVERSE-MoE-A4.2B 固定了2个专家,每次推理的时候必然激活,而剩余的6个专家则是根据推理输入进行路由选择,这样做是为了保证模型在基础通用能力上获得对应的领域性能。
欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。