赞
踩
OpenAI发布chatgpt之后,举世震惊,但是在这之前NLP领域几乎是走入了一条死胡同,看不到前景和未来。随着chatgpt发布,改变了这一情况,但是chatgpt并没有开源,所以大家对于技术细节也是停留在猜测的阶段,大家认为openai之前发表的一篇名为InstructGPT(Training language models to follow instructions with human feedback)的论文和chatgpt的结构最为接近。
InstructGPT 开创了一个经典的模型训练方法:先进行预训练,然后是监督式微调,最后是基于强化学习的人类反馈(Reinforcement Learning from Human Feedback, RLHF)训练模型。在最近两年,大家都在寻找替代RLHF的训练方式(DPO等),虽然在论文中一直在极力的证明的DPO的有效性,但是实际应用中效果并不明显。可以说至今还没有一个特别有效的方式替代RLHF的训练方式。
下面详细介绍一下InstructGPT的训练过程
InstructGPT三部曲:(1)有监督微调(SFT);(2)奖励模型(RM)训练;(3)通过PPO根据奖励模型进行强化学习。其中(2)(3)可以反复迭代
详细拆解一下三部曲以及这三部每一部分需要的训练数据集:
SFT:
在这一部分中,通过有监督的方式进行微调。训练模型模仿人的响应,即给定一个提示(prompt),模型应该生成与人类回答相似的响应
训练数据结构:有两个部分,一个部分是问题或者提示词集合(prompt),另一部分是针对每个问题或者提示人类高质量的回答
RM模型:有监督微调完成后,需要训练一个奖励模型。一个模型用于评估文本生成的质量,并且指导模型在后续的强化学习中进行优化。
训练数据结构:这部分的数据集需要成对出现,也需要有两个部分,一个部分是问题或者提示词集合(prompt)另外一个部分是成对的文本,这些文本是被标注人员按照文本质量进行了排名
强化学习:在这一阶段,通过强化学习进一步优化,以最大化奖励模型给出的得分。
训练数据结构:在这一步中,不需要额外的数据集,而是使用奖励模型作为环境的一部分,来动态地评价模型的输出,并据此更新模型参数。
以上介绍了InstructGPT的大体结构和每一步步骤的训练数据集的构建方式。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。