这个屌丝很懒，什么也没留下！

RLHF讲解_rlhf详解

作者：木道寻08 | 2024-08-23 09:14:59

RLHF包含了两个至关重要的步骤：

训练Reward Model
用Reward Model和SFT Model构造Reward Function，基于PPO算法来训练LLM
1. frozen RM
2. frozen SFT Model
3. Actor $\pi_{\Phi}^{R L}$ initialized from SFT Model
4. Critic $V_\eta$ initialized from RM

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/木道寻08/article/detail/1020331