当前位置:   article > 正文

大规模语言模型人类反馈对齐--PPO算法代码实践

大规模语言模型人类反馈对齐--PPO算法代码实践

在前面的章节我们已经知道,人类反馈强化学习机制主要包括策略模型、奖励模型、评论模型以及参考模型等部分。需要考 虑奖励模型设计、环境交互以及代理训练的挑战, 同时叠加大语言模型的高昂的试错成本。对于研究人员来说, 使用人类反馈强化学习面临非常大的挑战。RLHF 的稳定训练需要大量的经验和技巧。RLHF 的稳定训练需要大 量的经验和技巧,下面针对 PPO 算法的内部工作原理进行代码示意性分析。

奖励模型训练

奖励模型训练损失代码, 不仅需要拉大奖励模型在 chosen 和 rejected 回复分数上的差距, 也可以将在chosen 数据上的生成损失加入到最终的优化目标中。

PPO 微调

PPO 微调阶段涉及到四个模型, 分别是策略模型、评论模型、奖励模型和参考模型。首先加载这四个模型。

在模型加载完成后对策略模型和评论家模型进行封装, 这两个模型会进行训练并且更新模型参数, 奖励模 型和参考模型则不参与训练。

接下来将进行经验采样的过程, 分为以下几个步骤:(1) 读取输入数据, 并使用策略模型生成对应回复;(2) 使 用奖励模型对回复进行打分;(3) 将回复和策略模型输出概率等信息记录到经验缓冲区内。

然后, 使用广义优势估计算法, 基于经验缓冲区中的数据来计算优势 (Advantages) 和回报 (Return)。将估计 值重新使用 data_helper 进行封装,来对策略模型和评论模型进行训练。

ps: 欢迎扫码关注公众号^_^.

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/171404
推荐阅读
相关标签
  

闽ICP备14008679号