当前位置:   article > 正文

总结:大模型指令对齐训练原理

大模型指令对齐

原文地址:大模型指令对齐训练原理

  • RLHF
    • SFT
    • RM
    • PPO
  • AIHF-based
    • RLAIF
      • 核心在于通过AI 模型监督其他 AI 模型,即在SFT阶段,从初始模型中采样,然后生成自我批评和修正,然后根据修正后的反应微调原始模型。在 RL 阶段,从微调模型中采样,使用一个模型来评估生成的样本,并从这个 AI 偏好数据集训练一个偏好模型。然后使用偏好模型作为奖励信号对 RL 进行训练
    声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/812218
    推荐阅读
    相关标签
      

    闽ICP备14008679号