【LLM】RLHF机制（Reinforcement Learning from Human Feedback）

作者：一键难忘520 | 2024-07-08 18:06:57

踩

rlhf

文章目录

一、RLHF机制
二、PPO模型（近端策略优化）
Reference

一、RLHF机制

在这里插入图片描述

分为三个步骤
- 我做你看：有监督学习，从训练集中挑出一批prompt，人工对prompt写答案
- 你做我看：奖励模型训练，这次不人工写答案了，而是让GPT3给出几个候选答案，人工对其质量排序，Reward model学习一个打分器；这个让机器学习人类偏好的过程就是【对齐】，但可能会导致胡说八道，可以通过KL Divergence等方法解决。instructGPT中奖励模型的损失函数如下，其中 rθ(x,y) 是奖励模型对提示x和完成y的标量输出，具有参数θ， $y_w$ 是 $y_w$ 和 $y_l$ 中更受欢迎的补全，D是人类比较的数据集。 $\begin{matrix} K \\ 2 \end{matrix}$
- 自学成才：PPO训练，利用第二阶段的打分器，RL对大量训练数据训练，PPO最大优化该目标函数： $\begin{aligned} objective (ϕ) = & E_{(x, y) \sim D_{π_{ϕ}^{R L}}} [r_{θ} (x, y) - β \log (π_{ϕ}^{R L} (y ∣ x) / π^{S F T} (y ∣ x))] + \\ γ E_{x \sim D_{pretrain}} [\log (π_{ϕ}^{R L} (x))] \end{aligned}$
  - $π^{RL}_φ$ 是学习到的RL策略，
  - $π^{SFT}$ 是监督训练模型，
  - $D_pretrain$ 是预训练分布。
  - KL奖励系数β和预训练损失系数γ分别控制KL惩罚和预训练梯度的强度。对于“PPO”模型，γ 设为 0。除非另有说明，否则本文中InstructGPT指 PPO-ptx模型

在这里插入图片描述

二、PPO模型（近端策略优化）

思想：保证策略改进同时，通过一些约束来控制策略更新的幅度；在每次迭代中，通过采样多个轨迹数据来更新策略：
- 使用当前策略对环境交互，收集多个轨迹数据
- 利用第一步的轨迹数据计算当前策略和旧策略之间的KL散度，通过控制KL散度大小来限制策略更新的幅度
- 使用优化器对策略进行更新，使其更加接近当前的样本策略
KL散度（Kullback-Leibler Divergence），可以衡量两个概率分布之间的差异程度。在 PPO 算法中，KL 散度（Kullback-Leibler Divergence）的计算公式如下：
$KL(π_old || π_new) = ∑i π_old(i) log(π_old(i) / π_new(i))$
- 其中，π_old 表示旧的策略，π_new 表示当前的样本策略。KL 散度的含义是用 π_old 的分布对 π_new 的分布进行加权，然后计算两个分布之间的差异程度。
- 具体来说，KL 散度的计算方法是首先计算 π_old(i) / π_new(i) 的比值，然后对其取对数并乘以 π_old(i) 来进行加权。最后将所有加权后的结果相加，即可得到 KL 散度的值。

注意：KL 散度是一个非对称的度量，即 KL(π_old || π_new) 与 KL(π_new || π_old) 的值可能不相等。在 PPO 算法中，我们通常使用 KL(π_old || π_new) 来控制策略更新的幅度，因为 KL(π_old || π_new) 的值通常比 KL(π_new || π_old) 更容易控制，并且更能够反映出策略改变的方向。

Reference

[1] 强化学习极简入门：通俗理解MDP、DP MC TC和Q学习、策略梯度、PPO
[2] “StackLLaMA”: 用 RLHF 训练 LLaMA 的手把手教程.huggingface
[3] ChatGPT的RLHF：AI时代的“调速器”，让AI真正可用的关键
[4] 【他山之石】如何正确复现 Instruct GPT / RLHF?
[5] https://en.wikipedia.org/wiki/Reinforcement_learning_from_human_feedback
[6] RLHF中的PPO算法原理及其实现.王嘉宁
[7] Training language models to follow instructions with human feedback（2022）
[8] InstructGPT论文解读.李响
[9] ChatGPT训练三阶段与RLHF的威力.oneflow

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/一键难忘520/article/detail/799662