赞
踩
大模型发展即将进入下一阶段但目前仍面临众多难题。为满足与日俱增的实际需求,大模型参数会越来越大,数据集类型越来越多,从而导致训练难度大增,同时也提高了推理成本。为了实现大模型的高效训练和推理,混合专家模型MoE便横空出世。
Export Network,用于学习不同数据,一个Gating Network用于分配每个Expert的输出权重。
Experts的输出是稀疏的,只有部分的 experts 的权重> 0,其余=0 的 expert 直接不参与计算
不同 experts 在竞争的过程中,会出现“赢者通吃”的现象:前期变现好的 expert 会更容易被 gating network 选择,导致最终只有少数的几个 experts 真正起作用
简化了MoE的routing算法,gating network 每次只 route 到 1 个 expert
大模型训练主要瓶颈在于片上内存与卡间通信。常用的内存优化手段:1)MoE并行、2)优化器异构,常用的通信优化手段:3)多副本并行。
1)MoE并行:将不同的专家切分到不同的卡上,由于MoE的路由机制,需要使用AllToAll通信,将token发送到正确的卡上。对AllToAll的优化:分级AllToAll、Group-wise AllToAll等。
2)优化器异构:大模型训练常使用的adam系列优化器,其占用的内存往往是模型参数本身的2倍或以上,可以将优化器状态存储在Host内存上。
3)多副本并行:将串行的通信、计算拆分成多组,组件流水,掩盖通信时间。
MindSpore已使能上述优化,大幅提升了万亿参数稀疏模型的训练吞吐
EP=8,MP=1时性能最佳,约1147 tokens/s/p。
性质 | 定义 |
知识记忆(knowledge retention) | 模型不易产生遗忘灾难 |
前向迁移(forward transfer) | 利用旧知识学习新任务 |
后向迁移(backward transfer) | 新任务学习后提升旧任务 |
在线学习(online learning) | 连续数据流学习 |
无任务边界(No task boudaries) | 不需要明确的任务或数据定义 |
固定模型容量(Fixed model capacity) | 模型大小不随任务和数据变化 |
性质 | |
知识记忆(knowledge retention) | √ |
前向迁移(forward transfer) | √ |
后向迁移(backward transfer) | - |
在线学习(online learning) | × |
无任务边界(No task boudaries) | √ |
固定模型容量(Fixed model capacity) | √ |
MoE的特点:
LLM的终身学习:
Random Routed Experts:
这样可以保证某个领域对应的expert可以直接被抽取出来作为单个模型使用。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。