赞
踩
原创 nipi NLP前沿 2024-04-20 20:09 湖北
NLP前沿
日更,近3天较实用的论文速读,这里的选文真的很干很前沿!!!
254篇原创内容
公众号
- https://huggingface.co/blog/mlabonne/orpo-llama-3
- https://arxiv.org/html/2403.07691v2
- https://colab.research.google.com/drive/1eHNWg9gnaXErdAa8_mcvjMupbSS6rDvi?usp=sharing
ORPO是一种的新的微调技术,将传统的监督微调和偏好对齐阶段结合到一个过程中。这减少了训练所需的计算资源和时间。此外,结果表明,ORPO在各种模型大小和基准上都优于其他对齐方法。常用的trl、llama-factory等已经支持了该算法。在上面链接中有个colab实现了使用orpo微调llama3-8b。
虽然 SFT 有效地使模型适应所需的领域,但它无意中增加了与最有答案一起生成不良答案的可能性。这就是为什么需要偏好对齐阶段来扩大首选输出和拒绝输出的可能性之间的差距。如下图HH-RLHF数据集上OPT-350M模型中选择和拒绝答案的对数概率
实现原理非常简单,如下图,在正常的sft损失基础上,约束y_w的概率要远大于y_l
对比最上面一张图训练过程中y_w和y_l的gap出现了
看一张效果图:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。