赞
踩
1、为了训练更多的数据、更大的模型,提出了并行训练框架。
2、并行的方式:数据并行、模型并行(张量并行、流水线并行)。
3、Megatron-LM 综合应用了数据并行(Data Parallelism),张量并行(Tensor Parallelism)和流水线并行(Pipeline Parallelism)。
4、DeepSpeed的核心是ZeRO(Zero Redundancy Optimizer):显存优化的数据并行(data parallelism, DP)方案。
ZeRO将模型训练阶段,每张卡中显存内容分为两类:模型(参数、梯度、Adam状态)、剩余(激活值、临时缓冲区、显存碎片)。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。