Megatron-lm、DeepSpeed_deepspeed和megatron的区别

作者：正经夜光杯 | 2024-08-07 17:12:51

踩

deepspeed和megatron的区别

1、为了训练更多的数据、更大的模型，提出了并行训练框架。

2、并行的方式：数据并行、模型并行（张量并行、流水线并行）。

3、Megatron-LM 综合应用了数据并行（Data Parallelism），张量并行（Tensor Parallelism）和流水线并行（Pipeline Parallelism）。

4、DeepSpeed的核心是ZeRO(Zero Redundancy Optimizer)：显存优化的数据并行(data parallelism, DP)方案。

ZeRO将模型训练阶段，每张卡中显存内容分为两类：模型（参数、梯度、Adam状态）、剩余（激活值、临时缓冲区、显存碎片）。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/正经夜光杯/article/detail/943591