当前位置:   article > 正文

开源模型应用落地-Qwen1.5-MoE-1/3的激活参数量达到7B模型的性能

开源模型应用落地-Qwen1.5-MoE-1/3的激活参数量达到7B模型的性能

一、前言

    2024.03.28阿里推出Qwen系列的首个MoE模型,Qwen1.5-MoE-A2.7B。它仅拥有27亿个激活参数,但其性能却能与当前最先进的70亿参数模型,如Mistral 7B和Qwen1.5-7B相媲美。但是目前只有HF transformers和vLLM支持该模型。


二、术语介绍

2.1.混合专家 (MoE) 架构

    是一种机器学习模型的结构设计,它将一个复杂的任务分解成多个相对简单的子任务,并为每个子任务分配一个专门的"专家"模型来处理。这种设计有以下几个主要特点:

  1. 模块化设计:将复杂任务划分为多个专门的子任务,每个子任务由一个专家模型负责处理。这样可以降低单个模型的复杂度,提高整体模型的灵活性。

  2. 专家协作:多个专家模型之间存在一个"门控器"(Gating Network)的协调机制,它负责根据输入数据动态地选择哪些专家模型参与计算,实现专家之间的协作。

  3. 高效推理:因为各个专家模型都相对简单,且只需要激活部分专家参与计算,整体模型的推理效率会比单一的复杂模型更高。

  4. 可扩展性:可以根据任务复杂度,灵活地增加或减少专家模型的数量,以适应不同规模的问题。

    MoE架构广泛应用于自然语言处理、语音识别、计算机视觉等领域的复杂模型设计中。它可以显著提高模型的性能和效率,是一种值得关注的重要架构设计思想。

2.2. Qwen1.5-MoE

     Qwen1.5-MoE 是一种基于 Transformer 的 MoE 仅解码器语言模型,在大量数据上进行了预训练。

2.3. Qwen1.5-MoE-A2.7B

    它仅拥有27亿个激活参数&

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/679316
推荐阅读
  

闽ICP备14008679号