赞
踩
这些示例应在以下任何设置中工作(使用相同的脚本):
fp16
(混合精度)、fp32
(普通精度)或 bf16
(bfloat16 精度)accelerate config
对于所有示例,您都需要生成一个Accelerate配置文件
accelerate config # will prompt you to define the training configuration
然后,鼓励开展工作accelerate launch!
文件 | 描述 |
---|---|
examples/scripts/sft.py | 此脚本展示了如何使用将SFTTrainer模型或适配器微调到目标数据集。 |
examples/scripts/reward_modeling.py | 此脚本展示了如何使用RewardTrainer在您自己的数据集上训练奖励模型。 |
examples/scripts/ppo.py | 该脚本展示了如何PPOTrainer使用 IMDB 数据集来微调情感分析模型 |
examples/scripts/ppo_multi_adapter.py | 此脚本展示了如何使用PPOTrainer来训练具有多个适配器的单个基本模型。要求您预先运行带有奖励模型训练的示例脚本。 |
examples/scripts/stable_diffusion_tuning_example.py | 该脚本展示了如何使用 DDPOTrainer 通过强化学习来微调稳定的扩散模型。 |
examples/scripts/dpo.py |
这里还有一些更易于运行的 Colab Notebook,您可以使用它们来开始使用 TRL:
文件 | 描述 |
---|---|
examples/notebooks/best_of_n.ipynb | 本笔记本演示了在使用 PPO 微调模型时如何使用 TRL 的“Best of N”采样策略。 |
examples/notebooks/gpt2-sentiment.ipynb | 本笔记本演示了如何在 jupyter 笔记本上重现 GPT2 imdb 情绪调整示例。 |
examples/notebooks/gpt2-control.ipynb | 此笔记本演示了如何在 jupyter 笔记本上重现 GPT2 情绪控制示例。 |
我们还有一些其他维护较少但可以作为参考的示例:
Research_projects:查看此文件夹以查找用于一些使用 TRL 的研究项目的脚本(LM 解毒、Stack-Llama 等)
通过在调用时提供
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。