赞
踩
多模态指的是融合文本、图像、视频或者音频等多模态作为输入或输出。
GPT-4:Generative Pre-trained Transformer 4:该模型可对图文多模态输入生成应答文字,以及对视觉元素的分类、分析和隐含语义提取,并表现出优秀的应答能力。
核心技术:
1.理论基础
涌现能力是基于深度学习模型的分层结构和权重学习机制实现的。当大语言模型被训练时,通过学习大量的多模态训练数据,并且根据数据中的统计规律和模式自适应的调整其内部参数和结构,从而表现出一些新的能力和特性。涌现能力是大语言模型的重要特性,也是大模型各种能力的理论基础。涌现能力的另一个重要表现是模型的泛化能力。
2.核心优势——多模态思维链
模型训练出来的思维链。思维链形成机制可以解释为模型通过学习大量的语言数据来构造一个关于语言结构和意义的内在表示,通过一系列中间自然语言推理步骤来完成最终输出。思维链是让大众感觉语言模型“像人”的关键特性。
语言模型的研究范式
在2017-2019年间,语言模型的研究重心逐渐转移到预训练模型上。模式为“预训练+精调”。
GPT-4/GPT-3模型中提示的新范式可归纳为“预训练+提示+预测”。
3.关键技术
人类反馈强化学习(Reinforcement Learning from human Feedback,人类反馈强化学习)。
如何加快训练效率,是如今强化学习任务待解决的重要问题之一。
TAMER架构在强化学习中的应用
TAMER(Training an Agent Manually via Evaluative Reinforcement,评估式强化人工训练代理)框架。该框架将人类标记员引入到模型代理的学习循环中,可以通过人类向代理提供奖励反馈(即知道Agents进行训练),从而快速达到训练任务目标。
GPT-4的多模态奖励模型(RM)是小号的有监督精调模型(SFT),但是在顶部添加了一个新的线性层来预测奖励。
奖励模型的过拟合导致模型性能下降
GPT-4中奖励模型只是人类偏好的部分表征,过度的训练反而可能导致奖励模型过拟合(以偏见代替整体)。
优化技术
近端策略优化算法(PPO,Proximal Policy Optimization)是一种高效的强化学习优化策略算法,由OPENAI的John Schulman等人在2017年提出。PPO算法试图解决的是参数共享架构不兼容、计算复杂性和难以调整的超参数等问题。通过简化优化问题,并限制策略更新的幅度,实现了更高效、更稳定的学习过程,具有实现简单、能同时处理离散/连续动作空间问题、可大规模训练等优势。
PPO的核心思想是在每次迭代中,通过一种称为近端策略优化的方法来更新策略参数,以最大化预期收益。它采用两个神经网络来表示模型的策略,一个是执行行动(Actor),另一个是处理奖励(Critic)。每次迭代中,PPO算法都会从环境中采样一批经验数据,并使用这些数据来更新策略参数和价值参数。
该算法的主要特点:1)裁剪的目标函数:PPO通过裁剪策略比例来限制更新幅度;2)重要度采样:利用重要度采样来估计策略梯度,从而可以重复使用之前的经验来更新策略。这使得PPO在数据效率上更具优势。3)多次更新:PPO算法在每次收集一批数据后,对策略进行多次更新。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。