当前位置:   article > 正文

ChatGPT笔记_gpt2 zero-shot learning

gpt2 zero-shot learning

一,ChatGPT的前世今生

GPT-1/2/3/3.5/Instruct/Chat

GPT:基于Transformer Decoder预训练 + 微调/Finetune
GPT-2:基于Transformer Decoder预训练 + Zero-shot Learning (零样本学习)
  仅通过大规模多领域的数据预训练,让模型在Zero-shot Learming的设置下自己学会解决多任务的问题
GPT-3 基于Transformer Decoder预训练 + Zero-shot Learning (零样本学习) + 大规模数据prompt完形填空
  舍弃fine-tuning,使用40T的数据进行完形填空训练:给前文预测单词,有一千多亿的参数。只需将自然语言的提示信息(prompt)和任务示例(demonstration)作为上下文输入给GPT-3,它就可以在零样本或小样本的情况下执行任何NLP任务
GPT-3.5 基于Transformer Decoder预训练 + Zero-shot Learning (零样本学习) + 大规模数据prompt完形填空 + 微调/Finetune
  模型使用与 GPT-3 相同的预训练数据集,但进行了额外的微调,从而更擅长以下两点:更擅长上下文学习、对话可以生成更加符合人类期待的反馈
InstructGPT GPT-3 + PPO算法finetune
  基于RLHF手段微调的GPT。监督学习让GPT3有一个大致的微调方向,然后用RL中的PPO算法来更新微调过的GPT3的参数。对InstructGPT的简单理解,可以是基于人类反馈的强化学习(RLHF)手段微调的GPT3。
  InstructGPT 通过将模型的目标与人类用户可能喜欢的内容“对齐”来解决这个问题。更真实、更诚实的答案,更少的毒性,等等。
ChatGPT GPT-3.5 + PPO算法finetune = Transformer + prompt学习 + RLHF + PPO
  在GPT3.5的基础上,先通过基于人类偏好定义奖励函数,再基于奖励函数通过PPO持续优化。

二,一些概念

  ChatGPT是InstructGPT的兄弟模型,它经过训练可以按照提示中的说明进行操作并提供详细的响应

  所谓的语言模型的训练,其实就是让模型调整候选句对应的概率,使我们人类希望输出的候选句的概率尽可能大,而不希望输出的概率尽可能小。

Fine-tuning与Prompting的不同
Fine-tuning中:是预训练语言模型“迁就“各种下游任务。具体体现就是通过引入各种辅助任务loss,将其添加到预训练模型中,然后继续pre-training,以便让其更加适配下游任务。总之,这个过程中,预训练语言模型做出了更多的牺牲
Prompting中:是各种下游任务“迁就“预训练语言模型。我们需要对不同任务进行重构,使得它达到适配预训练语言模型的效果。总之,这个过程中,是下游任务做出了更多的牺牲

RLHF:人类反馈的强化学习

InstructGPT训练过程:

  基于RLHF手段微调的GPT。InstructGPT的训练分为三个阶段(总体上结合了监督学习和强化学习,先是监督学习让GPT3有一个大致的微调方向,然后用RL中的PPO算法来更新微调过的GPT3的参数)。

  • 阶段1:利用人类的标注数据(demonstration data)去对GPT3进行有监督训练
      首先,OpenAI是先设计了一个prompt dataset,里面有大量的提示样本,给出了各种各样的任务描述
      其次,找了一个标注团队对这个prompt dataset进行标注(本质就是人工回答问题)
      最后,用这个标注过的数据集微调GPT3,这个微调好的GPT3我们称之为SFT模型(监督微调,全称Supervised fine-tuning,简称SFT),具备了最基本的预测能力

  • 阶段2:通过RLHF的思路训练奖励模型RM
      把微调好的SFT模型去回答prompt dataset某个问题,然后通过收集4个不同的SFT输出而获取4个回答,接着人工对这4个回答的好坏进行标注且排序,排序的结果用来训练一个奖励模型RM,具体做法就是学习排序结果从而理解人类的偏好

  • 阶段3:通过训练好的RM模型预测结果且通过PPO算法优化SFT模型策略
      具体做法是,再次让SFT模型去回答prompt dataset某个问题,然后此时不再让人工评估好坏,而是让阶段2训练好的奖励模型去给SFT模型的预测结果进行打分排序

参考:
July GPTN: ChatGPT通俗导论
chatgpt历程原理架构:chatgpt历程原理架构
图解Transformer

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/348087
推荐阅读
相关标签
  

闽ICP备14008679号