当前位置:   article > 正文

TRL代码示例概述_trl源代码

trl源代码

TRL代码示例概述

介绍

这些示例应在以下任何设置中工作(使用相同的脚本):

  • 单GPU
  • 多GPU(使用PyTorch分布式模式)
  • 多 GPU(使用 DeepSpeed ZeRO-Offload 阶段 1、2 和 3)
  • fp16(混合精度)、fp32(普通精度)或 bf16(bfloat16 精度)
    要在每种模式下运行它,首先使用以下命令初始化加速配置accelerate config

Accelerate Config 配置

对于所有示例,您都需要生成一个Accelerate配置文件

accelerate config # will prompt you to define the training configuration
  • 1

然后,鼓励开展工作accelerate launch!

维护的例子

文件描述
examples/scripts/sft.py此脚本展示了如何使用将SFTTrainer模型或适配器微调到目标数据集。
examples/scripts/reward_modeling.py此脚本展示了如何使用RewardTrainer在您自己的数据集上训练奖励模型。
examples/scripts/ppo.py该脚本展示了如何PPOTrainer使用 IMDB 数据集来微调情感分析模型
examples/scripts/ppo_multi_adapter.py此脚本展示了如何使用PPOTrainer来训练具有多个适配器的单个基本模型。要求您预先运行带有奖励模型训练的示例脚本。
examples/scripts/stable_diffusion_tuning_example.py该脚本展示了如何使用 DDPOTrainer 通过强化学习来微调稳定的扩散模型。
examples/scripts/dpo.py

这里还有一些更易于运行的 Colab Notebook,您可以使用它们来开始使用 TRL:

文件描述
examples/notebooks/best_of_n.ipynb本笔记本演示了在使用 PPO 微调模型时如何使用 TRL 的“Best of N”采样策略。
examples/notebooks/gpt2-sentiment.ipynb本笔记本演示了如何在 jupyter 笔记本上重现 GPT2 imdb 情绪调整示例。
examples/notebooks/gpt2-control.ipynb此笔记本演示了如何在 jupyter 笔记本上重现 GPT2 情绪控制示例。

我们还有一些其他维护较少但可以作为参考的示例:
Research_projects:查看此文件夹以查找用于一些使用 TRL 的研究项目的脚本(LM 解毒、Stack-Llama 等)

分布式训练

通过在调用时提供

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/708064
推荐阅读
相关标签