当前位置:   article > 正文

RLHF讲解_rlhf详解

rlhf详解

RLHF包含了两个至关重要的步骤:

  1. 训练Reward Model
  2. 用Reward Model和SFT Model构造Reward Function,基于PPO算法来训练LLM
    1. frozen RM
    2. frozen SFT Model
    3. Actor π Φ R L \pi_{\Phi}^{R L} πΦRL initialized from SFT Model
    4. Critic V η V_\eta Vη initialized from RM

rlhf


参考

RLHF理论篇

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/木道寻08/article/detail/1020331
推荐阅读
相关标签
  

闽ICP备14008679号