赞
踩
转载翻译Medium上一篇关于分布式深度学习框架的文章 https://medium.com/@mlblogging.k/9-libraries-for-parallel-distributed-training-inference-of-deep-learning-models-5faa86199c1fmedium.com/@mlblogging.k/9-libraries-for-parallel-distributed-training-inference-of-deep-learning-models-5faa86199c1f
大型深度学习模型在训练时需要大量内存来存储中间激活、权重等参数,导致某些模型只能在单个 GPU 上使用非常小的批大小进行训练,甚至无法在单个 GPU上进行训练,使得模型训练在某些情况下非常低效和不可能。
在大规模深度学习模型训练中有个主要范式:
我们将讨论大规模深度学习模型训练中的核心概念以及在模型训练领域的最新进展和改进方法,然后分享一些实现这些方法的可用库。
应用数据并行最常见的场景是模型尺寸能够被 GPU 内存容纳,数据批大小会增加模型训练的难度。解决方案是让模型的不同实例在不同的 GPU 和不同批数据上运行,如下图所示。
模型的每个实例都使用相同的参数进行初始化,但在前向传递期间,不同批次的数据被发送到每个模型。 收集来自每个模型实例的梯度并计算梯度更新。,然后更新模型参数并将其作为更新发送到每个模型实例。
当单个 GPU无法容纳模型尺寸时,模型并行性变得必要,有必要将模型拆分到多个 GPU 上进行训练。
通过把一个大模型拆分到多个 GPU 上训练,可以实现模型尺寸超过单个 GPU显存的深度学习模型训练。 这种方法的问题是计算使用效率不高,因为在任何时间点只有一个 GPU 正在使用,而其他 GPU 处于空闲状态。
上述两个并行训练范式已有各种优化和增强方法,使训练/推理变得高效,包含如下:
Megatron 是由 NVIDIA 深度学习应用研究团队开发的大型 Transformer 语言模型,该模型用于研究大规模训练大型语言模型。Megatron 支持transformer模型的模型并行(张量、序列和管道)和多节点预训练,同时还支持 BERT、GPT 和 T5 等模型。
DeepSpeed是微软的深度学习库,已被用于训练 Megatron-Turing NLG 530B 和 BLOOM等大型模型。DeepSpeed的创新体现在三个方面:训练 ,推理 ,压缩
DeepSpeed具备以下优势:
FairScale(由 Facebook 研究)是一个用于高性能和大规模训练的 PyTorch 扩展库。 FairScale 的愿景如下:
FairScale 支持Fully Sharded Data Parallel (FSDP),这是扩展大型神经网络训练的推荐方式。
FSDP workflow from https://pytorch.org/blog/introducing-pytorch-fully-sharded-data-parallel-api/
Parallelformers 是一个基于 Megatron-LM 的库。 它与 Huggingface 库很好地集成在一起。 Huggingface 库中的模型可以用一行代码并行化。 目前它只支持推理。
from transformers import AutoModelForCausalLM, AutoTokenizer
from parallelformers import parallelize
model = AutoModelForCausalLM.from_pretrained("EleutherAI/gpt-neo-2.7B")
tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neo-2.7B")
parallelize(model, num_gpus=2, fp16=True, verbose='detail')
Colossal-AI提供了一组并行组件,可以用来实现定制化的分布式/并行训练,包含以下并行化策略和增强功能:
Alpa是一个用于训练和服务大规模神经网络的系统,具备如下特点:
Hivemind是一个在互联网上使用 Pytorch 进行去中心化深度学习的库。 它主要服务场景是在来自不同大学、公司和志愿者的数百台计算机上训练一个大型模型。
其主要特点是:
OneFlow 是一个深度学习框架,旨在实现用户友好、可扩展和高效。 使用 OneFlow,很容易:
根据 github 页面:Mesh TensorFlow (mtf) 是一种用于分布式深度学习的语言,能够指定广泛的分布式张量计算类别。 这里的“Mesh”是指处理器或计算设备的互连网络。
https://zhuanlan.zhihu.com/p/582498905
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。