赞
踩
论文题目:Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism
论文机构:NVIDIA
近期的研究表明,训练大型transformer模型推动了自然语言处理技术的发展。但由于显存的约束,大模型的训练非常困难。这篇文章提出了一个训练大规模transformer语言模型的技术,实现了一个简单有效的层内模型并行(目前并行训练的方法命名尚未统一,为了避免歧义,业界习惯把GPipe的层间模型并行称为流水线并行,把Megatron-LM的层内模型并行称为张量并行,本文用张量并行特指Megatron-LM的方法)。这种张量并行能训练数十亿参数的transformer模型。这个新方法不需要新的编译器或者库,只需要在原生的PyTorch上插入少量代码就能生效。而且新方法和流水线并行各自独立,是流水线并行的一个互补。作者用512个GPU训练83亿参数的transformer基础模型。与39 TeraFLOPs(占峰值FLOPs的30%)的单GPU基线相比,整个集群达到15.1 PetaFLOPs的计算性能,扩展效率达到76%。作者用层内模型并行训练了两个transformer架构的模型,一个83亿参数的GPT-2和一个39亿参数的BERT,两者都在评测中展现了很好的性能。
大模型在多个领域的表现都很优秀。但由于模型越来越大,单块显卡的内存装不下了,大家也提出了一些方法来减少模型的大小,但是这些方法都很重,涉及到编译和框架的改动。而作者提出层内模型并行的方法简单又高效。这种方法基于transformer模型
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。