当前位置:   article > 正文

基于人类反馈的强化学习(RLHF)入门指南_rlhf人类反馈强化学习介绍

rlhf人类反馈强化学习介绍

理解 RLHF 及其运作过程

来自人类反馈的强化学习 (RLHF) 是一种训练和微调大型语言模型的方法,使其能够正确遵循人类指令。借助 RLHF,LLM 模型可以理解用户的意图,即使该意图没有被明确描述。RLHF 使模型能够正确解释指令并从以前的对话中学习。

为什么 RLHF 对 LLM 很重要

要更好地理解 RLHF,了解大型语言模型的基本特征至关重要。大型语言模型旨在预测句子的下一个单词。例如,您向 GPT 模型提供短语“狐狸从树上跳下来……”(The fox jumped off the tree...),它会用“然后稳稳地落在地上”(and landed on its feet)来完成句子。

但是,如果 LLM 能够理解简单的指令,例如“写一个关于狐狸和树的短篇故事”(Create a short story about a fox and a tree),则会更有帮助。作为初始语言模型,它难以解释此类指令的目的。因此,该模型可能会提供模棱两可的响应,例如描述编写创意故事的方法,而不是直接讲故事本身。

RLHF 使 LLM 能够扩展其能力,使其不仅仅能自动补全语句。它涉及创建一个奖励系统,通过人类反馈进行增强,以指导基础模型哪种响应更符合人类偏好。简而言之,RLHF 让 LLM 具备像人类一样的判断能力

RLHF 与传统强化学习

在传统的强化学习中,预训练的语言模型与特定环境进行交互,通过奖励系统优化其策略。这里,模型充当强化学习 (RL) 智能体,尝试通过反复试验来最大化其奖励。

来自人类反馈的强化学习通过将人类反馈纳入奖励模型来增强传统的强化学习方法。借助 RLHF,RL 智能体通过应用领域专家的额外反馈来加速其整体训练过程。它将 AI 生成的反馈与来自人类的指导和演示相结合。因此,RL 智能体可以在不同的现实环境中始终如一地输出相关结果。

RLHF 的工作原理

图片

RLHF 是一项先进的机器学习技术,可以增强大型模型自监督学习过程。由于需要人类训练者的高成本参与,它不能作为独立的模型学习方法。相反,大型人工智能公司使用 RLHF 来微调预训练模型。

步骤 1 - 从预训练模型开始

首先,选择一个预训练模型。例如,ChatGPT 是从现有的 GPT 模型开发而来的。这些模型经过了自监督学习,可以预测和构建句子。

步骤 2 - 监督式微调

然后,对预训练模型进行微调以进一步增强其能力。在这个阶段,人工标注者准备了一组提示和期望结果,以训练模型识别特定的模式并调整其预测响应。例如,标注者通过以下训练数据将模型引导至期望的输出:

提示:写一个关于人工智能的简单解释。回答:人工智能是一门科学,它......

步骤 3 - 创建奖励模型

奖励模型是一种大型语言模型,用于向正在训练的原始语言模型发送排序信息。其设计理念是让奖励模型评估基础模型的输出,并返回奖励信号。然后,主 LLM 利用奖励信号来优化其参数。

为了训练奖励模型,人类标注者首先根据一个或多个 LLM 生成对比数据。他们产生了几对提示-答案,并根据偏好对它们进行排序。请注意,这个过程是主观的,会受到人类感知语言模型生成结果的影响。

有了排序的数据集,奖励模型就会学会产生一个标量奖励信号,根据人类偏好来表示所生成响应的相关性。经过充分的训练,奖励模型可以在没有人为干预的情况下自动对 RL 智能体的输出进行排序。

步骤 4 - 使用奖励模型训练 RL 策略

一旦奖励模型准备就绪,我们就会创建一个反馈环来训练和微调 RL 策略。RL 策略是原始 LLM 的一个副本,它获取奖励信号并调整其行为。与此同时,它还将其输出发送给奖励模型进行评估。

根据奖励分数,RL 策略将根据来自人类训练的奖励系统的反馈,生成它认为更可取的响应。这个过程会迭代进行,直到强化学习智能体达到预期的性能水平。

RLHF 的应用及其影响

源自人类反馈的强化学习对自然语言处理人工智能系统具有深远的影响。它将漫无目的运行的大型语言模型转变为有明确目标、智能且更安全的应用。

让我们比较一下在典型应用场景中, RLHF 模型与其非 RLHF 版本的表现。

电子邮件写作

非 RLHF 模型难以根据简单的提示创建电子邮件。例如,你用指令“写一封请求面试的电子邮件”来提示模型。

非 RLHF 模型可能会将提示误解为待办事项列表的开头,并输出如下结果:

  • 后续跟进电话。

  • 打印你的简历。

  • 确认面试细节。

  • 准时到达。

同时,经过微调的 RLHF 模型知道用户期望得到一封可以发送给雇主的电子邮件。它会生成如下输出:

尊敬的 [招聘经理姓名],

您好!我写信是想表达我对 [公司名称] 的 [职位/职称] 的浓厚兴趣,该职位发布于 [职位发布来源]。在仔细阅读了职位描述和要求后,我自信我的技能和资格与该职位非常吻合。…

你能从非 RLHF 模型中生成正确的响应吗?有可能。但是你需要使用复杂的提示,而非专业用户很难创建出这样的提示。这种额外的复杂性反而违背了使用对话式 AI 模型的目的——简化日常任务。

解答数学问题

大型语言模型主要是为执行语言任务而设计的。但这并不意味着它们不能解决数学问题。区别在于 LLM 是否经过了充分的训练,特别是结合 RLHF,可用于解决数学问题。

默认情况下,基本 LLM 模型会将数学问题视为语言提示。例如,如果你用“5 + 5 等于多少?”提示一个非 RLHF 模型,它会尝试像讲故事的人一样完成这个短语。它可能会回答“使用计算器来获得准确的答案”,而不是解决这个等式。

然而,RLHF 模型能够正确地将问题理解为对数学解决方案的要求。它直接回答“10”,而不是添加更多的语言上下文。为此,LLM 需要在 RLHF 阶段得到数学专家的指导。

代码生成

大型语言模型本质上是编写代码的专家。然而,根据它们受到的训练方式,LLM 可能不会像程序员那样返回适当的输出。

例如,用 "编写将两个整数相加的简单 Java 代码 "来提示非 RLHF 模型,可能会返回以下响应。

“首先,在你的电脑上安装一个 Java 编程环境。然后,启动代码编辑器。”

或者,模型可能会切换到讲故事模式,描述编码对新学习者来说是如何具有挑战性的,例如:

“这段代码可能行得通, 

public static int add integers(int num1, int num2) { return num1 + num2; }

但是最好测试一下它是否有错误。”

另一方面,一个训练有素的 RLHF 模型将提供所要求代码的完整示例。它还将解释代码是如何工作的,以及运行代码时的预期输出。

图片

RLHF 如何提高 LLM 的性能

大型语言模型 (LLMs) 是能够执行高级自然语言处理任务的神经网络。与之前的模型相比,LLM 具有更多的参数,可显著提升其性能。神经网络参数(例如隐藏层中的权重和偏差)使模型能够生成更连贯、更准确的响应。

LLM 通过监督学习或自监督学习来训练其参数。模型会相应地调整其参数,期望产生类似人类的输出。然而,它们在这方面往往做得不够好。尽管使用大量参数进行训练,但在给定具体指令时,LLM 还是表现出不协调的一面。

如上面的示例所示,LLM 可能无法完美地理解提示的意图,除非用户明确表达。这与人类语言的自然表达存在差异,我们在语言中使用的细微差别或短语意味着某些含义。简而言之,LLM 的可用性受到了极大的限制,除非它们的行为具有可预测性、安全性和一致性。

随着 RLHF 的引入,LLM 的性能得到了显着提高。OpenAI 在开发 InstructGPT, (ChatGPT 的前身)时记录了这一观察结果。借助 RLHF,具有 13 亿参数的模型性能优于具有 1750 亿参数的基础模型

OpenAI 早期在 RLHF 方面的工作强调了在微调大型语言模型时人工参与的重要性。RLHF 使模型能够更好地适应广泛的语言数据分布。此外,人工输入被证明是在为模型提供更好的信号质量和上下文相关性方面很有价值。

因此,尽管训练数据集较小,该模型仍可以提供更好的响应。虽然并不完美,但经过 RLHF 训练的模型在以下方面表现出了显着的改进:

  • 即使没有复杂的提示,模型也能更好地遵循指令。

  • 使用 RLHF 进行微调,可以减少模型的危险行为。

  • 在 RLHF 训练的模型中,幻觉(模型编造和产生不正确事实的现象)也有所减少。

  • 该模型具备更好的泛化性能。

RLHF 如何将 LLM 从自动补全转变为对话理解

大型语言模型的出现是语言 AI 系统发展的一个重要里程碑。它们是在来自各种来源的大量文本上训练的深度学习模型。LLM 本身能够根据人类输入形成连贯且语法正确的句子。

然而,它们的使用范围仅限于数据科学界。充其量,LLM 最多可帮助实现自动补全功能,例如 Gmail 的智能写作功能。它会根据用户键入的特定单词生成短语,用户随后可以将生成的文本插入电子邮件中。

不过,只要能够弥补理解人类对话方面的差距, LLMs 就可以在消费者领域提供更多帮助。与结构化提示不同,人类对话在风格、细微差别、文化影响和意图方面各不相同。这些是像 GPT 这样的预训练 LLM 模型只有通过进一步微调才能理解的元素。

来自人类反馈的强化学习打破了 LLM 的刻板印象,开启了新应用的可能性。它催生了 Conversational AI 等技术,聊天机器人不再是一种基本问答应用。

如今,公司使用 RLHF 来实现预训练 LLM 模型的各种下游功能。下面我们分享几个例子。

  • 电子商务虚拟助手,根据“展示男士时尚冬装”等查询推荐特定产品。

  • 医疗保健 LLM 系统,例如 BioGPT-JSL,允许临床医生通过询问简单的健康相关问题来总结诊断并查询医疗状况。

  • 金融机构微调 LLM,向客户推荐相关产品并从财务数据中识别内在风险。例如,BloombergGPT 利用特定领域数据进行了微调,使其成为表现最佳的金融行业 LLM 模型之一。

  • 在教育领域,受过训练的大型语言模型允许学习者个性化他们的学习并获得及时的评估。此类 AI 模型还可以通过为课堂教育生成高质量的问题来减轻教师的负担。

RLHF 在开发 OpenAI 的 ChatGPT 和 Anthropic 的 Claude 等模型中的作用

ChatGPT 在发布几天内吸引了数百万人注册这个看似像人类一样的 AI 聊天机器人,风靡一时。但 ChatGPT 并不是唯一具有这种革命性能力的聊天机器人。Anthropic 的 Claude 和 Deep Mind Sparrow 具有与 ChatGPT 相似的功能。

在为公共用例定制这些模型时,OpenAI、Anthropic 和 Google 试图解决困扰预训练模型的两个常见问题。

  • 他们努力设计更安全、更有目的性的模型。

  • 但即使经过有监督的微调,这些模型也达不到公开使用的标准。

例如,给定像“冥想如何运作?”这样的提示,该模型可能会尝试通过提供背景信息(“…对于初学者”)来完成它,而不是回答问题。输出在语法上是正确的,但与提示语境不对齐。在自然对话中,理想的回答是对冥想练习本身进行信息性描述。

然而,预训练的 LLM 有一个更令人担忧的问题。如果没有人类的指导,它们无法辨别道德行为和危险行为之间的区别。例如,该模型可能会用捏造的事实误导用户;或者使用不适当、暴力或歧视性的语言。

RLHF 使 OpenAI 及其竞争对手能够解决这些具有挑战性的问题。在 RLHF 中,语言模型会看到来自多个模型的排名数据。这有助于 AI 逐渐建立语境理解能力并开发适当的奖励机制。更重要的是,人类训练者制定了特定的指导方针,以防止此类模型产生不符合标准的行为。

Anthropic 在 RLHF 中采用了一种有趣的方法来进一步减少 Claude 产生有害响应的可能性。它通过人类评审人员创建对抗性提示来引发有害行为,该步骤称为“constitutional AI”,探测模型的弱点,创造更安全的 AI 环境。

RLHF 的挑战、局限性和未来

RLHF 使 LLM 能够突破其固有的语言能力,进而提供影响各个行业的问题解决方案。然而,RLHF 并不完美,机器学习工程师在不久的将来必须克服各种障碍。

收集人类偏好数据的复杂性和成本

RLHF 将人的主观性和价值观差异带入了 LLM 的训练过程。通常,RLHF 需要将标注任务外包给一组人类评审员。这样做时,确保评审员群体多元化很重要,否则会产生有偏见的评估。

由于大量的人力参与,生成用于奖励函数的训练数据的整个过程可能会非常昂贵。公司不仅需要支付高昂的费用,在扩展 RLHF 流程时仍可能面临瓶颈。人类标注者可能以不同的效率工作,不能保证结果达到预期的客观性和质量。

使 AI模型与复杂的人类价值观保持一致的挑战

RLHF 旨在使模型与人类偏好保持一致,但这说起来容易做起来难。从表面上看,从人类那里收集反馈并将其集成到训练循环中似乎可以解决这个问题。但实际上,人类评级者会犯错误,并受其个人信念、偏见和环境的影响。

例如,ChatGPT 花费巨资用 RLHF 对其基础模型进行了微调,但它偶尔仍会表现出偏见和幻觉。这突显了聘请训练有素、合格的人类评审员的必要性,但这样做会进一步增加 RLHF 的成本。即便如此,生成与所有人口统计数据价值观完全一致的训练数据也是不可能的。

当前 RLHF 系统的局限性

现有的 RLHF 相关设计和原则都可以改进。需要重点注意的一个问题是,人类并没有直接训练 RL 智能体,而是训练了一个包含人类输入的奖励模型作为代理。两者相互作用,以最大化奖励值作为特定目标。因此, RLHF 模型还可能为了获取“人类认可”而做出不正确、甚至欺骗性的回应。

进一步发挥 RLHF 的潜力

RLHF 将 LLM 带到了新的高度,但潜力还未充分释放。当然,这取决于改进现有 RLHF 系统所做的努力。当前,数据科学家和研究人员正在研究解决已知流程限制的方法。例如,普林斯顿大学的研究人员展示了一种需要较少人类反馈来调优训练策略的算法。

同时,纽约大学的研究人员试图解决 RLHF 模型中不同人类评级者造成的不一致问题。他们推荐了一种称为“使用语言反馈来训练语言模型”的方法。标注者不是用经过评分的提示结果对来训练语言模型,而是提供关于输出应该是什么样子、进行描述性的解释。然后,语言模型使用反馈进一步完善模型。

RLHF 中尚未探索的方案

提升现有 RLHF 能力的重任现在落在 AI 公司和 ML 团队身上。RLHF 仍处于起步阶段,还有很大的改进空间。近端策略优化 (PPO) 是强化学习过程中常用的策略梯度方法,但在不稳定性和高效训练方面苦苦挣扎。因此,研究人员正在尝试不同的方法来优化算法。

例如,上海大学的研究人员提出了一种混合分布式近端策略优化 (MDPPO) 算法,允许多个策略同时训练。同时,OpenAI 推出了 PPO2,这是其前身可运行在 GPU 上的增强版本。这些实例凸显了 ML 社区为构建更好的 RLHF 模型所做的贡献和努力。

结论

来自人类反馈的强化学习为机器学习开辟了一个新领域,特别是下游的大型语言模型 (LLM) 应用。它可以帮助 LLM 遵循人类指令,行为更可预测,并提供更安全的 AI 环境。我们已经展示了诸多案例,说明 RLHF 如何影响各种 AI 系统的性能。此外,本文还着重指出了现有 RLHF 模型的局限性和改进方向。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/305584
推荐阅读
  

闽ICP备14008679号