深度学习训练框架（三）：Megatron-LM_megatron框架

作者：花生_TL007 | 2024-03-31 09:25:02

踩

megatron框架

论文题目：Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism

论文机构：NVIDIA

摘要

近期的研究表明，训练大型transformer模型推动了自然语言处理技术的发展。但由于显存的约束，大模型的训练非常困难。这篇文章提出了一个训练大规模transformer语言模型的技术，实现了一个简单有效的层内模型并行（目前并行训练的方法命名尚未统一，为了避免歧义，业界习惯把GPipe的层间模型并行称为流水线并行，把Megatron-LM的层内模型并行称为张量并行，本文用张量并行特指Megatron-LM的方法）。这种张量并行能训练数十亿参数的transformer模型。这个新方法不需要新的编译器或者库，只需要在原生的PyTorch上插入少量代码就能生效。而且新方法和流水线并行各自独立，是流水线并行的一个互补。作者用512个GPU训练83亿参数的transformer基础模型。与39 TeraFLOPs（占峰值FLOPs的30%）的单GPU基线相比，整个集群达到15.1 PetaFLOPs的计算性能，扩展效率达到76%。作者用层内模型并行训练了两个transformer架构的模型，一个83亿参数的GPT-2和一个39亿参数的BERT，两者都在评测中展现了很好的性能。

导言

大模型在多个领域的表现都很优秀。但由于模型越来越大，单块显卡的内存装不下了，大家也提出了一些方法来减少模型的大小，但是这些方法都很重，涉及到编译和框架的改动。而作者提出层内模型并行的方法简单又高效。这种方法基于transformer模型࿰

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/花生_TL007/article/detail/344122