当前位置:   article > 正文

RLHF强化学习对其算法:PPO、DPO、ORPO_dpo orpo

dpo orpo

参考:
https://blog.csdn.net/baoyan2015/article/details/135287298
https://cloud.tencent.com/developer/article/2409553
最新的llama3是PPO、DPO两种方法使用

人类反馈强化学习 (RLHF),它利用人类偏好和指导来训练和改进机器学习模型:

proximal policy optimization (PPO)
direct policy optimization (DPO)直接偏好优化

ORPO(直接相当于合并了监督微调SFT+RLHF)是另一种新的LLM对齐方法,这种方法甚至不需要SFT模型。通过ORPO,LLM可以同时学习回答指令和满足人类偏好。https://medium.com/@zaiinn440/orpo-outperforms-sft-dpo-train-phi-2-with-orpo-3ee6bf18dbf2

PPO、DPO

DPO是一种相对较新的方法,它直接优化用户或专家的偏好,而非传统的累积奖励。PPO(Proximal Policy Optimization)和DPO(Distributed Proximal Policy Optimization)都是基于策略梯度的强化学习算法,它们通过优化策略函数来直接学习一个策略,该策略能够映射观察到的状态到动作的概率分布。
在这里插入图片描述

ORPO:

https://arxiv.org/pdf/2403.07691.pdf
在这里插入图片描述

在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/黑客灵魂/article/detail/780243
推荐阅读
相关标签
  

闽ICP备14008679号