当前位置:   article > 正文

深度学习训练框架(三):Megatron-LM_megatron框架

megatron框架

论文题目:Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism

论文机构NVIDIA

摘要

近期的研究表明,训练大型transformer模型推动了自然语言处理技术的发展。但由于显存的约束,大模型的训练非常困难。这篇文章提出了一个训练大规模transformer语言模型的技术,实现了一个简单有效的层内模型并行(目前并行训练的方法命名尚未统一,为了避免歧义,业界习惯把GPipe的层间模型并行称为流水线并行,把Megatron-LM的层内模型并行称为张量并行,本文用张量并行特指Megatron-LM的方法)。这种张量并行能训练数十亿参数的transformer模型。这个新方法不需要新的编译器或者库,只需要在原生的PyTorch上插入少量代码就能生效。而且新方法和流水线并行各自独立,是流水线并行的一个互补。作者用512个GPU训练83亿参数的transformer基础模型。与39 TeraFLOPs(占峰值FLOPs的30%)的单GPU基线相比,整个集群达到15.1 PetaFLOPs的计算性能,扩展效率达到76%。作者用层内模型并行训练了两个transformer架构的模型,一个83亿参数的GPT-2和一个39亿参数的BERT,两者都在评测中展现了很好的性能。

导言

大模型在多个领域的表现都很优秀。但由于模型越来越大,单块显卡的内存装不下了,大家也提出了一些方法来减少模型的大小,但是这些方法都很重,涉及到编译和框架的改动。而作者提出层内模型并行的方法简单又高效。这种方法基于transformer模型࿰

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/344122
推荐阅读
相关标签
  

闽ICP备14008679号