赞
踩
来自人类反馈的强化学习 (RLHF) 是一种训练和微调大型语言模型的方法,使其能够正确遵循人类指令。借助 RLHF,LLM 模型可以理解用户的意图,即使该意图没有被明确描述。RLHF 使模型能够正确解释指令并从以前的对话中学习。
要更好地理解 RLHF,了解大型语言模型的基本特征至关重要。大型语言模型旨在预测句子的下一个单词。例如,您向 GPT 模型提供短语“狐狸从树上跳下来……”(The fox jumped off the tree...),它会用“然后稳稳地落在地上”(and landed on its feet)来完成句子。
但是,如果 LLM 能够理解简单的指令,例如“写一个关于狐狸和树的短篇故事”(Create a short story about a fox and a tree),则会更有帮助。作为初始语言模型,它难以解释此类指令的目的。因此,该模型可能会提供模棱两可的响应,例如描述编写创意故事的方法,而不是直接讲故事本身。
RLHF 使 LLM 能够扩展其能力,使其不仅仅能自动补全语句。它涉及创建一个奖励系统,通过人类反馈进行增强,以指导基础模型哪种响应更符合人类偏好。简而言之,RLHF 让 LLM 具备像人类一样的判断能力。
在传统的强化学习中,预训练的语言模型与特定环境进行交互,通过奖励系统优化其策略。这里,模型充当强化学习 (RL) 智能体,尝试通过反复试验来最大化其奖励。
来自人类反馈的强化学习通过将人类反馈纳入奖励模型来增强传统的强化学习方法。借助 RLHF,RL 智能体通过应用领域专家的额外反馈来加速其整体训练过程。它将 AI 生成的反馈与来自人类的指导和演示相结合。因此,RL 智能体可以在不同的现实环境中始终如一地输出相关结果。
RLHF 是一项先进的机器学习技术,可以增强大型模型自监督学习过程。由于需要人类训练者的高成本参与,它不能作为独立的模型学习方法。相反,大型人工智能公司使用 RLHF 来微调预训练模型。
首先,选择一个预训练模型。例如,ChatGPT 是从现有的 GPT 模型开发而来的。这些模型经过了自监督学习,可以预测和构建句子。
然后,对预训练模型进行微调以进一步增强其能力。在这个阶段,人工标注者准备了一组提示和期望结果,以训练模型识别特定的模式并调整其预测响应。例如,标注者通过以下训练数据将模型引导至期望的输出:
提示:写一个关于人工智能的简单解释。回答:人工智能是一门科学,它......
奖励模型是一种大型语言模型,用于向正在训练的原始语言模型发送排
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。