当前位置:   article > 正文

Megatron-lm、DeepSpeed_deepspeed和megatron的区别

deepspeed和megatron的区别

1、为了训练更多的数据、更大的模型,提出了并行训练框架。

2、并行的方式:数据并行、模型并行(张量并行、流水线并行)。

3、Megatron-LM 综合应用了数据并行(Data Parallelism),张量并行(Tensor Parallelism)和流水线并行(Pipeline Parallelism)。

4、DeepSpeed的核心是ZeRO(Zero Redundancy Optimizer):显存优化的数据并行(data parallelism, DP)方案。

ZeRO将模型训练阶段,每张卡中显存内容分为两类:模型(参数、梯度、Adam状态)、剩余(激活值、临时缓冲区、显存碎片)。

猛猿-大模型预训练系列

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/正经夜光杯/article/detail/943591
推荐阅读
相关标签
  

闽ICP备14008679号