赞
踩
GPT:基于Transformer Decoder预训练 + 微调/Finetune
GPT-2:基于Transformer Decoder预训练 + Zero-shot Learning (零样本学习)
仅通过大规模多领域的数据预训练,让模型在Zero-shot Learming的设置下自己学会解决多任务的问题
GPT-3 基于Transformer Decoder预训练 + Zero-shot Learning (零样本学习) + 大规模数据prompt完形填空
舍弃fine-tuning,使用40T的数据进行完形填空训练:给前文预测单词,有一千多亿的参数。只需将自然语言的提示信息(prompt)和任务示例(demonstration)作为上下文输入给GPT-3,它就可以在零样本或小样本的情况下执行任何NLP任务
GPT-3.5 基于Transformer Decoder预训练 + Zero-shot Learning (零样本学习) + 大规模数据prompt完形填空 + 微调/Finetune
模型使用与 GPT-3 相同的预训练数据集,但进行了额外的微调,从而更擅长以下两点:更擅长上下文学习、对话可以生成更加符合人类期待的反馈
InstructGPT GPT-3 + PPO算法finetune
基于RLHF手段微调的GPT。监督学习让GPT3有一个大致的微调方向,然后用RL中的PPO算法来更新微调过的GPT3的参数。对InstructGPT的简单理解,可以是基于人类反馈的强化学习(RLHF)手段微调的GPT3。
InstructGPT 通过将模型的目标与人类用户可能喜欢的内容“对齐”来解决这个问题。更真实、更诚实的答案,更少的毒性,等等。
ChatGPT GPT-3.5 + PPO算法finetune = Transformer + prompt学习 + RLHF + PPO
在GPT3.5的基础上,先通过基于人类偏好定义奖励函数,再基于奖励函数通过PPO持续优化。
ChatGPT是InstructGPT的兄弟模型,它经过训练可以按照提示中的说明进行操作并提供详细的响应
所谓的语言模型的训练,其实就是让模型调整候选句对应的概率,使我们人类希望输出的候选句的概率尽可能大,而不希望输出的概率尽可能小。
Fine-tuning与Prompting的不同
Fine-tuning中:是预训练语言模型“迁就“各种下游任务。具体体现就是通过引入各种辅助任务loss,将其添加到预训练模型中,然后继续pre-training,以便让其更加适配下游任务。总之,这个过程中,预训练语言模型做出了更多的牺牲
Prompting中:是各种下游任务“迁就“预训练语言模型。我们需要对不同任务进行重构,使得它达到适配预训练语言模型的效果。总之,这个过程中,是下游任务做出了更多的牺牲
RLHF:人类反馈的强化学习
基于RLHF手段微调的GPT。InstructGPT的训练分为三个阶段(总体上结合了监督学习和强化学习,先是监督学习让GPT3有一个大致的微调方向,然后用RL中的PPO算法来更新微调过的GPT3的参数)。
阶段1:利用人类的标注数据(demonstration data)去对GPT3进行有监督训练
首先,OpenAI是先设计了一个prompt dataset,里面有大量的提示样本,给出了各种各样的任务描述
其次,找了一个标注团队对这个prompt dataset进行标注(本质就是人工回答问题)
最后,用这个标注过的数据集微调GPT3,这个微调好的GPT3我们称之为SFT模型(监督微调,全称Supervised fine-tuning,简称SFT),具备了最基本的预测能力
阶段2:通过RLHF的思路训练奖励模型RM
把微调好的SFT模型去回答prompt dataset某个问题,然后通过收集4个不同的SFT输出而获取4个回答,接着人工对这4个回答的好坏进行标注且排序,排序的结果用来训练一个奖励模型RM,具体做法就是学习排序结果从而理解人类的偏好
阶段3:通过训练好的RM模型预测结果且通过PPO算法优化SFT模型策略
具体做法是,再次让SFT模型去回答prompt dataset某个问题,然后此时不再让人工评估好坏,而是让阶段2训练好的奖励模型去给SFT模型的预测结果进行打分排序
参考:
July GPTN: ChatGPT通俗导论
chatgpt历程原理架构:chatgpt历程原理架构
图解Transformer
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。