Transformers 4.37 中文文档（九）_huggenface trainer

作者：小惠珠哦 | 2024-08-20 04:48:00

踩

huggenface trainer

原文：huggingface.co/docs/transformers

多 GPU 上的高效训练

原始文本：huggingface.co/docs/transformers/v4.37.2/en/perf_train_gpu_many

如果在单个 GPU 上训练模型太慢或者模型的权重无法适应单个 GPU 的内存，则过渡到多 GPU 设置可能是一个可行的选择。在进行此过渡之前，彻底探索在单个 GPU 上进行高效训练的方法和工具中涵盖的所有策略，因为它们普遍适用于任意数量的 GPU 上的模型训练。一旦您采用了这些策略并发现它们在单个 GPU 上不足以满足您的情况时，请考虑转移到多个 GPU。

从单个 GPU 过渡到多个 GPU 需要引入某种形式的并行性，因为工作负载必须分布在资源之间。可以采用多种技术来实现并行性，例如数据并行性，张量并行性和管道并行性。重要的是要注意，没有一种大小适合所有的解决方案，最佳设置取决于您正在使用的特定硬件配置。

本指南提供了对各种并行性类型的深入概述，以及有关如何组合的指导

技术和选择适当的方法。有关分布式训练的逐步教程，请参考

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小惠珠哦/article/detail/1005271