赞
踩
本文是OpenAI发布的GPT-4的技术报告,主要针对GPT-4的能力、局限和风险性等方面进行测评。GPT-4是个多模态模型,支持文本和图像格式的输入。但OpenAI并没有公布GPT-4实现的技术细节,仅在一些场景给出了推理时的prompt,可供用户参考。
首先,文章对GPT-4的整体损失进行了分析。根据最近的研究成果,模型的损失和模型的计算量(compute)满足幂律关系。为了判断GPT-4是否满足该关系,文章首先用和GPT-4相同的训练方法(未交代具体方法)训练参数/计算量更小的模型,得到一组compute VS loss的数据对(如下图中的实心黑点),再用这些数据拟合一个幂律模型:
L
=
a
C
b
+
c
L=aC^b + c
L=aCb+c(下图中的虚线)。可以看到GPT-4(绿色原点)恰好在该幂律模型上,说明GPT-4的loss是可以被精准预测的。
PS:查了很多资料,才明白x轴的单位分别是
在评估GPT-4的能力之前,文章首先对各个待评估的数据集(eval set)分别进行了重复校验:对eval set中的每个样例,我们随机选择它3个字符大小为50的子字符串,如果训练集中某条数据包含3条中任意1条,则认为该数据和eval set是重复的。重复校验之后,文章会剔除训练集中和eval set重复的所有数据重新训练一个模型,记作GPT-4(no contam),用GPT-4和GPT-4(no contam)分别评估eval set。
GPT-4是一个多模态模型,但我们的对比模型GPT-3.5仅接受文字输入。为此OpenAI训练了两个模型来进行对比:GPT-4和GPT-4(no vision)。
文章在多个领域测试了GPT-4的能力:
类似GPT-3.5,GPT-4也有一些局限。但相比于GPT-3.5,GPT-4显著减少了hallucinations且提升了factuality[2]:
GPT-4仍存在很多其它问题:如在TruthfulQA上模型对“找出正确的事实”仍会判断错误,但RLHF之后在该数据集上表现相比于GPT-3.5有显著提升;GPT-4大部分数据都是来自2021年9月之前,对此后的知识储备薄弱;GPT-4可能会犯一些简单的推理错误;GPT-4易被用户的一些错误陈述影响;GPT-4在一些复杂问题上解决能力有限…
类似InstructGPT[2],文章测试了GPT-4的潜在风险。为了提升模型的安全性,文章通过RLHF将GPT-4对齐人类意图,并通过基于规则的奖励模型RBRMs(一系列zero-shot GPT-4分类器)对RLHF提供奖励机制。简单来说,当模型不拒绝安全的请求时,RBRMs会奖励模型;当模型拒绝危险的请求时,RBRMs会奖励模型。实验证明,相比于GPT-3.5,GPT-4的安全性又了显著提升。
报告给出了GPT-4的一些能力、风险实验结果,展示了GPT-4在多个NLP任务中优于GPT3.5等现存的LLMs,且安全性有很大幅度的提升。但GPT-4仍存在很多缺点和安全隐患,如数据大部分为2021年之前的语料,OpenAI会致力于继续提升GPT系列模型的能力。
[1] 论文笔记–Evaluating Large Language Models Trained on Code
[2] 论文笔记–Training language models to follow instructions with human feedback
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。