OpenAI 发布 GPT-4，有哪些技术上的优化或突破？_openai-gpt

作者：知新_RL | 2024-07-11 17:36:44

踩

openai-gpt

GPT-4，这是 OpenAI 努力扩展深度学习的里程碑。

GPT-4 是一个大型多模态模型（接受图像和文本输入，发出文本输出），虽然在许多现实世界场景中的能力不如人类，但在各种专业和学术基准上表现出人类水平的表现。例如，它通过模拟律师考试，分数在应试者的前 10% 左右；相比之下，GPT-3.5 的得分在倒数 10% 左右。OpenAI花了 6 个月的时间，使用OpenAI的对抗性测试程序和 ChatGPT 的经验教训迭代调整 GPT-4，从而在真实性、可操纵性方面取得了有史以来最好的结果（尽管远非完美）。

在过去的两年里，OpenAI团队重建了整个深度学习堆栈，并与 Azure 一起为OpenAI的工作负载从头开始共同设计了一台超级计算机。一年前，OpenAI训练的 GPT-3.5 作为系统的第一次“试运行”。发现并修复了一些错误并改进了我们的理论基础。结果，我们的 GPT-4 训练运行（至少对我们而言！）前所未有地稳定，成为OpenAI能够提前准确预测其训练性能的第一个大型模型。随着OpenAI 继续专注于可靠的扩展，GPT-4，越来越多地提前预测和准备未来的能力。

在对它，任意方式的谈话中，GPT-3.5 和 GPT-4 之间的区别可能很微妙。当任务的复杂性达到足够的阈值时，差异就会出现——GPT-4 比 GPT-3.5 更可靠、更有创意，并且能够处理更细微的指令。

为了了解这两种模型之间的区别，OpenAI 在各种基准测试中进行了测试，包括最初为人类设计的模拟考试。OpenAI 通过使用最新的公开测试（在奥林匹克竞赛和 AP 自由回答问题的情况下）或是购买 2022-2023 年版本的模拟考试来继续进行。OpenAI 没有针对这些考试进行专门培训。模型在训练期间看到了考试中的少数问题，但OpenAI 认为结果具有代表性——详情请参阅技术报告。

OpenAI 还在为机器学习模型设计的传统基准上评估了GPT-4。GPT-4大大优于现有的大型语言模型，以及大多数最先进的（SOTA）模型，这些模型可能包括特定于基准的手工制作或额外的训练协议：

许多现有的ML基准测试都是用英语编写的。为了初步了解其他语言的能力，OpenAI 使用Azure Translate将MMLU基准——一套涵盖57门科目的14000个多项选择题——翻译成各种语言（见附录）。在测试的26种语言中的24种中，GPT-4的英语性能优于GPT-3.5和其他LLM（Chinchilla、PaLM），包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言：

OpenAI 还在内部使用GPT-4，对支持、销售、内容审核和编程等功能产生了巨大影响。也在使用它来帮助人类评估人工智能的输出，开始我们调整战略的第二阶段。

视觉输入

GPT-4可以接受文本和图像的提示，这与纯文本设置平行，允许用户指定任何视觉或语言任务。具体来说，它生成由穿插的文本和图像组成的给定输入的文本输出（自然语言、代码等）。在一系列领域，包括带有文本和照片的文档、图表或屏幕截图，GPT-4表现出与纯文本输入类似的功能。此外，它还可以通过为纯文本语言模型开发的测试时技术进行扩展，包括少量镜头和思维链提示。图像输入仍然是一个研究预览，不公开。

视觉输入：VGA 充电器

OpenAI 通过在一套狭窄的标准学术视觉基准上对其进行评估来预览 GPT-4 的性能。然而，这些数字并不能完全代表其能力范围，因为OpenAI 不断发现该模型能够处理的新的和令人兴奋的任务。OpenAI 计划很快发布进一步的分析和评估数据，并彻底调查测试时间技术的影响。

限制

尽管功能强大，但 GPT-4 具有与早期 GPT 模型类似的局限性。最重要的是，它仍然不完全可靠（它“幻觉”事实并出现推理错误）。在使用语言模型输出时应格外小心，特别是在高风险上下文中，使用与特定用例的需求相匹配的确切协议（例如人工审查、附加上下文的基础或完全避免高风险使用） .

虽然仍然是一个真正的问题，但 GPT-4 相对于以前的模型（它们本身在每次迭代中都在改进）显着减少了幻觉。在OpenAI 的内部对抗性真实性评估中，GPT-4 的得分比最新的 GPT-3.5 高 40%：

OpenAI 在 TruthfulQA 等外部基准测试方面取得了进展，它测试了模型将事实与一组对抗性选择的错误陈述分开的能力。这些问题与事实不正确的答案配对，这些答案在统计上很有吸引力。

GPT-4 基本模型在此任务上仅比 GPT-3.5 略好；然而，在 RLHF 后训练（应用与 GPT-3.5 相同的过程）之后，存在很大差距。检查下面的一些例子，GPT-4 拒绝选择俗语（你不能教老狗新把戏），但它仍然会遗漏细微的细节（猫王不是演员的儿子）。

该模型的输出可能存在各种偏差——OpenAI 在这些方面取得了进展，但还有更多工作要做。根据OpenAI 最近的博客文章，OpenAI 的目标是让我们构建的 AI 系统具有合理的默认行为，以反映广泛的用户价值观，允许这些系统在广泛的范围内进行定制，并就这些范围应该是什么获得公众意见。

GPT-4 普遍缺乏对绝大部分数据中断后（2021 年 9 月）发生的事件的了解，也没有从经验中吸取教训。它有时会犯一些简单的推理错误，这些错误似乎与跨多个领域的能力不相称，或者在接受用户明显的虚假陈述时过于轻信。有时它会像人类一样在难题上失败，例如在它生成的代码中引入安全漏洞。

GPT-4 也可能自信地在其预测中犯错，在可能出错时不注意仔细检查工作。有趣的是，基础预训练模型经过高度校准（其对答案的预测置信度通常与正确概率相匹配）。然而，通过目前的训练后过程，校准减少了。

风险与缓解措施

OpenAI 一直在对 GPT-4 进行迭代，以使其从训练开始就更安全、更一致，工作包括选择和过滤预训练数据、评估和专家参与、模型安全改进以及监控和执行。

GPT-4 会带来与之前模型类似的风险，例如生成有害建议、错误代码或不准确的信息。但是，GPT-4 的附加功能会带来新的风险面。为了了解这些风险的程度，OpenAI 聘请了 50 多位来自 AI 对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家来对模型进行对抗性测试。他们的发现特别使OpenAI 能够在需要专业知识进行评估的高风险领域测试模型行为。这些专家的反馈和数据用于OpenAI 对模型的缓解和改进。例如，OpenAI 收集了额外的数据来提高 GPT-4 拒绝有关如何合成危险化学品的请求的能力。

GPT-4 在 RLHF 训练期间加入了一个额外的安全奖励信号，以通过训练模型拒绝对此类内容的请求来减少有害输出（如OpenAI 的使用指南所定义）。奖励由 GPT-4 零样本分类器提供，该分类器根据安全相关提示判断安全边界和完成方式。为了防止模型拒绝有效请求，OpenAI 从各种来源（例如，标记的生产数据、人类红队、模型生成的提示）收集了多样化的数据集，并对两者应用安全奖励信号（具有正值或负值）允许和不允许的类别。

与 GPT-3.5 相比，OpenAI 的缓解措施显着改善了 GPT-4 的许多安全特性。与 GPT-3.5 相比，OpenAI 已将模型响应不允许内容请求的倾向降低了 82%，并且 GPT-4 根据OpenAI 的政策响应敏感请求（例如，医疗建议和自我伤害）的频率提高了 29% 。

总的来说，OpenAI 的模型级干预增加了引发不良行为的难度，但这样做仍然是可能的。此外，仍然存在生成违反OpenAI 使用指南的内容的“越狱”。随着人工智能系统“每个代币的风险”增加，在这些干预中实现极高的可靠性将变得至关重要。目前，重要的是通过监控滥用等部署时安全技术来补充这些限制。

GPT-4 和后续模型有可能以有益和有害的方式对社会产生重大影响。OpenAI 正在与外部研究人员合作，以改进OpenAI 理解和评估潜在影响的方式，以及对未来系统中可能出现的危险功能进行评估。OpenAI 很快将分享更多关于 GPT-4 和其他人工智能系统的潜在社会和经济影响的想法。

训练过程

与之前的 GPT 模型一样，GPT-4 基础模型经过训练可以预测文档中的下一个单词，并且使用公开可用的数据（例如互联网数据）以及OpenAI已获得许可的数据进行训练。这些数据是网络规模的数据语料库，包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述，并代表各种各样的意识形态和想法。

因此，当出现问题提示时，基本模型可以以多种可能与用户意图相去甚远的方式做出响应。为了使其与护栏内的用户意图保持一致，OpenAI使用强化学习和人工反馈 (RLHF) 来微调模型的行为。

请注意，该模型的能力似乎主要来自预训练过程——RLHF 不会提高考试成绩（如果不积极努力，它实际上会降低考试成绩）。但是模型的转向来自训练后过程——基础模型需要及时的工程设计甚至知道它应该回答问题。

可预测的扩展

GPT-4 项目的一大重点是构建可预测扩展的深度学习堆栈。主要原因是，对于像 GPT-4 这样的非常大的训练运行，进行广泛的特定于模型的调整是不可行的。OpenAI开发的基础设施和优化在多个尺度上具有非常可预测的行为。为了验证这种可扩展性，OpenAI通过从使用相同方法训练但使用 10,000 倍更少计算的模型进行推断，准确预测了 GPT-4 在OpenAI内部代码库（不是训练集的一部分）上的最终损失：

现在OpenAI可以准确地预测，OpenAI在训练期间优化的指标（损失），OpenAI开始开发方法来预测更多可解释的指标。例如，OpenAI成功预测了 HumanEval 数据集子集的通过率，从计算量减少 1,000 倍的模型推断：

有些能力仍然难以预测。例如，Inverse Scaling Prize 是一项竞赛，目的是寻找随着模型计算量的增加而变得更糟的指标，而后见之明的忽视是获胜者之一。就像最近的另一个结果一样，GPT-4 扭转了趋势：

OpenAI 认为，准确预测未来的机器学习能力是安全的重要组成部分，但与其潜在影响相比，它并没有得到足够的重视。OpenAI正在加大力度开发方法，为社会提供更好的未来系统预期指导，OpenAI 希望这成为该领域的共同目标。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/知新_RL/article/detail/811036