赞
踩
来源|TalkRL
OneFlow编译
翻译|徐佳渝、贾川
同样是基于GPT预训练模型,为什么ChatGPT的效果要远远超出GPT-3等前几代模型?答案已经揭晓,成就ChatGPT的秘密武器在于RLHF,也就是人类反馈的强化学习。
在预训练阶段,GPT模型学习关于这个世界的一切,而在RLHF阶段,ChatGPT更关注的让模型输出正确、有益的恰当结果,并对结果不断进行微调。
具体而言,RLHF阶段的调优又分为三大步骤:第一步:通过监督学习,用人类对不同提示的“理想”回答数据微调LLM;第二步:LLM 为每个提示提供多个答案,然后由人工评估员对这些答案进行排名(该排名用于训练奖励模型);第三步:用近端策略优化(PPO)模型来优化LLM的奖励模型。
此前,ChatGPT负责人John Schulman介绍了RLHF想法的起源,关键在于他们在语言模型中应用强化学习,使用人类反馈去定义奖励函数。此外,OpenAI的RLHF所使用的诸多技术也是基于前人研究基础上组合而成的成果,其中就包括Natasha Jaques的工作。
Natasha是Google Brain的高级研究科学家,OpenAI的不少工作引用了她所发表的与RLHF和对话模型相关的强化学习论文。在近期Robin Ranjit Singh Chauhan主持的TalkRL播客节目中,她从第三方视角,介绍了对RLHF及其奖励模型相关思路,以及对强化学习研究与AGI发展等方面的看法。
目前,她的研究重点是社交强化学习(Social Reinforcement Learning),开发结合来自社交学习和多智能体训练的见解的算法,以提高AI智能体的学习、泛化、协作以及人机交互能力。2024年1月,她将加入华盛顿大学计算机科学学院担任助理教授。
(以下内容经授权后由OneFlow编译发布,译文转载请联系OneFlow获得授权。来源:https://www.talkrl.com/episodes/natasha-jaques-2)
1
RLHF相关研究与成本效益
Robin Chauhan:你很早就开始了人类反馈的强化学习(RLHF)以及对话模型这方面的类似研究,而且OpenAI发表的许多重要论文引用了你的研究成果。能否谈谈你的研究与OpenAI当前的研究和这些模型之间的联系?
Natasha Jaques:回到2016年,当时我正在思考如何利用预训练语言模型进行微调。具体来说,我关注的是LSTM模型,并尝试使用强化学习对其进行微调。那时,我关注的点不在语言本身,而是音乐生成和分子生成之类的方法,例如生成类似药物分子的方法。
在我看来,分子生成是一个很好的示例。我们可以基于已知分子数据集去训练一个监督模型,并生成新的分子,但是这些分子可能缺乏我们所需的特性,如易于合成药物。因此,我们还需要对分子的“合成可及性(synthetic accessibility)”进行评估。但仅依靠数据集训练是不够的,因为这样无法得到优化的分子。如果仅仅优化分子的合成可及性,也可能会生成一些无用的分子。
因此,我们需要对这两个方面进行评估和优化。对于这一问题,我们可以使用强化学习来优化药物相似性(drug likeness)或合成可及性,但由于数据存在缺陷,这种方法并不完美。
我们提出了一个解决方案:首先在数据集上进行预训练,然后再使用强化学习来优化某些奖励,同时最小化预训练策略与当前策略之间的KL散度。这种方法可以灵活地结合监督学习和强化学习,使用监督学习来获得数据集中的有用信息,同时使用强化学习来优化在数据分布空间内具有高回报的序列。可以看出,这与当前使用的RLHF方法密切相关。
在该技术中,我们首先在数据集上对大型语言模型进行预训练,然后通过人类反馈来优化模型,同时最小化优化模型与预训练先验模型之间的KL散度,这对于RLHF框架有重要意义。
同时,我也在研究从人类反馈中学习的RLHF方法。2019年前后,我们采用了同样的KL控制方法,即让对话模型尝试优化与人类交谈获得的信号,而非让人类评价对话的好坏,同时采用与OpenAI的RLHF算法不同的方式来实现偏好排序。
我们的目标是从与人类对话的隐含信号中学习,而非仅仅依靠人类的评价来进行优化。我们不需要人们额外提供反馈,而是通过分析文本的情感等隐含信号来为模型提供奖励信号。
例如,当对话中的人听起来普遍高兴时,我们就会将其视为正面奖励信号来训练模型。反之,当他们听起来沮丧或困惑时&#
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。