开源模型应用落地-Qwen1.5-MoE-1/3的激活参数量达到7B模型的性能

作者：小丑西瓜9 | 2024-06-06 03:19:47

踩

一、前言

2024.03.28阿里推出Qwen系列的首个MoE模型，Qwen1.5-MoE-A2.7B。它仅拥有27亿个激活参数，但其性能却能与当前最先进的70亿参数模型，如Mistral 7B和Qwen1.5-7B相媲美。但是目前只有HF transformers和vLLM支持该模型。

是一种机器学习模型的结构设计,它将一个复杂的任务分解成多个相对简单的子任务,并为每个子任务分配一个专门的"专家"模型来处理。这种设计有以下几个主要特点:

MoE架构广泛应用于自然语言处理、语音识别、计算机视觉等领域的复杂模型设计中。它可以显著提高模型的性能和效率,是一种值得关注的重要架构设计思想。

Qwen1.5-MoE 是一种基于 Transformer 的 MoE 仅解码器语言模型，在大量数据上进行了预训练。

它仅拥有27亿个激活参数&

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小丑西瓜9/article/detail/679316