人工智能大模型之ChatGPT原理解析_chatgpt 强化模型和奖励模型

作者：不正经 | 2024-05-08 03:30:14

踩

chatgpt 强化模型和奖励模型

强烈推荐一个大神的人工智能的教程：http://www.captainai.net/zhanghan

前言

近几个月ChatGPT爆火出圈，一路狂飙；它功能十分强大，不仅能回答各种各样的问题，还可以信写作，给程序找bug…
我经过一段时间的深度使用后，十分汗颜，"智障对话"体验相比，它是如此的丝滑流畅
作为一名技术人，情不自禁的对它的原理产生了十分浓厚的兴趣；于是花费了一些时间去研究其实现技术原理，在此与大家分享

ChatGPT基本信息&原理

ChatGPT基本信息

研发公司：OpenAI
创立年份：2015年
创立人：马斯克、Sam Altman及其他投资者
目标：造福全人类的AI技术
GPT(Generative Pre-trained Transformer):生成式预训练语言模型
GPT作用：问答，生成文章等
模型发展史
参数量(单位：亿)
预训练数据量(单位：GB)

原理解析

训练过程总览

在这里插入图片描述

训练过程详解

训练监督策略模型

作为技术人员都知道，一直有两个难题困扰我们：

让机器理解人类通用指令下的意图
生成内容是否是高质量

ChatGPT如何解难题？

数据集中随机抽取问题，由人类标注人员给出高质量答案，得到多轮对话的数据，然后用这些人工标注好的数据来微调 GPT模型；由于数据来源于网上海量数据，通过监督学习可以让模型生成出更加符合我们预期的答案

训练奖励模型（RM）

叠加效应：通过人工标注训练数据，来训练回报模型，从而使模型不断地自我迭代完善；
具体如下：
- 在上一步微调后，在数据集中随机抽取问题，使用第一阶段生成的模型，对于每个问题，生成多个不同的回答
- 人类标注者对输出结果从好到差排序
- 用这个排序结果数据来训练奖励模型
- RM模型接受一个输入，给出评价回答质量的分数，从而使ChatGPT从命令驱动转向意图驱动，引导ChatGPT输出符合人类预期的内容。

强化学习来优化策略(PPO)

使用PPO强化模型优化奖励模型
具体步骤如下：
- 利用上段训练好的奖励模型，靠奖励打分来更新预训练模型参数
- 在数据集中随机抽取问题，使用PPO模型生成回答，并用上一阶段训练好的RM模型给出质量分数
- 将回报分数依次传递，从而产生策略梯度，通过强化学习的方式来更新PPO模型参数
- 不断迭代，从而训练出更高质量的模型

人工智能大模型之ChatGPT原理解析_chatgpt 强化模型和奖励模型

前言

ChatGPT基本信息&原理

ChatGPT基本信息

原理解析

训练过程总览

训练过程详解

训练监督策略模型

训练奖励模型（RM）

强化学习来优化策略(PPO)

更多原理内容解析

背景

思考题

更多详细内容

活动相关内容：

总结