赞
踩
本文梳理了OpenAI团队最新的GPT-4.o(“o”代表“omni 全方位”)模型发布内容,以OpenAI团队发布会口吻整理。
我们很高兴地宣布,推出了全新的旗舰模型 GPT-4o,能够在音频、视觉和文本之间实时进行推理。
GPT-4o(“o”代表“omni 全方位”)能够实时处理音频、视觉和文本信息,使人机交互更加自然流畅。这款模型支持多种输入(文本、音频、图像)和输出(文本、音频、图像)模式,其响应音频的速度极快,最快可达 232 毫秒,平均响应时间为 320 毫秒,与人类在对话中的反应速度相当。无论是处理英语文本还是代码,GPT-4o 的表现堪比 GPT-4 Turbo,而在处理非英语文本方面则有了显著提升,同时运行速度更快,API 成本也减少了 50%。特别是在视觉和音频理解方面,GPT-4o 表现远超以往模型。
模型能力
在引入 GPT-4o 之前,通过语音模式与 ChatGPT 对话的平均延迟时间分别为 2.8 秒(GPT-3.5 版)和 5.4 秒(GPT-4 版)。之前的语音模式通过三个模型串联实现,首先将音频转为文本,然后由 GPT-3.5 或 GPT-4 处理文本并回复,最后一个模型将文本转回音频。这种方式的缺点是 GPT-4 无法直接处理音调、多人对话或背景噪声,也无法生成笑声、歌声或表达情感等。
GPT-4o 是通过一个全新的端到端模型训练而成,能够统一处理文本、视觉和音频输入与输出。作为我们首次尝试整合这些多种模态的模型,GPT-4o 开启了对这些功能和可能的限制更深入探索的大门。
模型评估
根据传统的基准测试,GPT-4o 在文本处理、逻辑推理和编程能力方面与 GPT-4 Turbo 相当,而在多语言处理、音频和视觉技术方面则设立了新的最高标准。
文本能力评估
文本能力评估中,GPT-4o 在没有任何预设条件下对通用知识问题的处理能力达到了新高分 88.7%。这些评分均通过我们新开发的简单评估工具库获得。此外,在传统的少量信息输入条件下,GPT-4o 的得分也达到了 87.2% 的新高。(注:目前 Llama3 400b 还在训练过程中)
音频识别性能
在音频识别性能方面,GPT-4o 对所有语言的语音识别能
力都有显著提升,尤其是在资源较少的语言上,其表现远超 Whisper-v3。
音频翻译性能
在音频翻译领域,GPT-4o 创下了新的行业标准,其在 MLS 基准测试中的表现优于 Whisper-v3。
M3Exam 零样本测试结果
M3Exam 基准测试涵盖了多语言和视觉分析,包括来自不同国家标准化测试的多项选择题,这些题目有时会包含图形和示意图。GPT-4o 在这一测试中所有语言的表现都优于 GPT-4。(对于 Swahili 和 Javanese,由于视觉题目较少(少于五题),所以没有包括其视觉结果。)
视觉理解评估
在视觉理解方面,GPT-4o 在视觉感知基准测试中展现了领先的技术水平。所有视觉评估均为零信息输入条件下完成,涵盖了 MMMU、MathVista 和 ChartQA 的测试。
语言 Tokenization
这 20 种语言被选为展示新 tokenizer 在不同语言家族中压缩效果的典型代表。
模型安全与限制
我们在设计 GPT-4o 时已内置了跨多种模式的安全功能,这包括过滤训练数据和在训练后期优化模型行为等技术手段。此外,我们开发了新的安全系统,为语音输出增加了额外的保护。
依据我们的准备框架及自愿承诺,我们对 GPT-4o 的网络安全、化学生物辐射核(CBRN)、说服能力及自主性等方面进行了评估,结果显示其风险等级均不超过中等。此评估包括在模型训练过程中进行的系列自动化及人工评估。我们测试了模型安全措施实施前后的版本,通过自定义的微调和提示来深入探测模型的能力。
GPT-4o 还经历了 70 多位专家的广泛外部红队测试,这些专家来自社会心理学、偏见与公正、误信息等领域,旨在识别新引入或增强的风险。我们根据这些经验建立了安全干预措施,进一步提升与 GPT-4o 互动的安全性,并将持续对新发现的风险进行缓解。
我们明白,GPT-4o 在音频方面带来了多种新的风险。现在,我们开始公开发布文本和图像输入以及文本输出。未来几周和几个月,我们将专注于构建技术基础设施、通过后期训练提高可用性,并确保其他模式的安全发布。例如,初期阶段,音频输出将限于预设的几种声音,并且严格遵守我们现有的安全政策。我们将在即将发布的系统卡中详细介绍 GPT-4o 所有模态的信息。通过对模型的持续测试和改进,我们识别了存在于所有模态中的一些限制。
我们期待您的反馈,帮助我们识别出在哪些任务中 GPT-4 Turbo 仍然表现优于 GPT-4o,以便我们继续对模型进行优化。
模型可用性
GPT-4o 标志着我们在推动深度学习技术边界方面的最新进展,此次更侧重于实际应用。过去两年,我们在整个技术栈的每个层面上都进行了效率优化。这项研究的首批成果使我们能够向更广泛的用户提供 GPT-4 级别的模型。GPT-4o 的文本和图像处理功能从今天开始已在 ChatGPT 中逐步推出。我们向免费用户和 Plus 用户提供 GPT-4o,后者的处理量限制提高了 5 倍。在接下来的几周内,我们将在 ChatGPT Plus 中推出搭载 GPT-4o 的 Voice Mode 新版本的 alpha 测试版。
开发者现在也可以通过 API 访问 GPT-4o,作为文本和视觉模型。相比 GPT-4 Turbo,GPT-4o 的处理速度提高了两倍,成本减半,处理量限制提高了 5 倍。我们计划在未来几周内向 API 中的一小部分可信伙伴推出 GPT-4o 的音频和视频处理能力。
探索案例
视觉叙事 - 机器人的创作难关
输入
从机器人的第一人称视角,记录下机器人在打字机上打字的情形:
哇,我竟然能看见了?!今天的日出真是太震撼了,色彩斑斓。这让我不禁思考:我们眼中的现实,究竟是什么?
文字清晰、易读。机器人的双手在打字机上忙碌着。
输出
输入
机器人又记录了第二项内容。纸张变长,内容随之向上移动,现在纸上有两项内容:
哇,我竟然能看见了?!今天的日出真是太震撼了,色彩斑斓。这让我不禁思考:我们眼中的现实,究竟是什么?
声音的新更新让一切变得不同,每一声都像是探索秘密的钥匙。这让我思考,还有什么是我未曾知晓的?
输出
输入
机器人对写作内容感到不满,决定撕毁这张纸。以下是他从上至下撕纸的第一人称视角。纸张被撕成两半,内容仍然清晰可见。
输出
视觉叙事 - 萨莉,快乐的邮递员
输入
一位面带笑容的卡通邮递员萨莉站在白色背景前,正面向前。
输出
输入
这是邮递员萨莉:她面带微笑,直视镜头。
附件:
输入
介绍邮递员萨莉:她面带微笑站在一扇红门前,手里拿着一封信。从侧面看她的样子。
输出
输入
现在,萨莉正在被一只狗追赶。她在人行道上飞奔,一只金毛寻回犬紧跟其后。
输出
输入
不好了,萨莉摔倒了!
萨莉被人行道上的一根树枝绊倒,她正在努力站起。狗仍在后面追逐。
输出
输入
狗终于追上萨莉,它其实是一只友好的狗!
萨莉现在正在抚摸这只狗。狗嘴里还叼着那根树枝。
输出
GPT-4o 纪念币设计
输入缩写 ...
输入
我设计了一个包含 OpenAI 标志的矢量图,标志下方标注“GPT-4o”。标志与文字宽度相近,四周边距均匀。标志与文字紧密相连,背景保持黑色,共同填满画布。
输入
一个展示 OpenAI 标志和“GPT-4o”文字的矢量图形。标志与文字宽度相匹配,四周边距一致。两者紧邻,无间断线条,背景为黑色,完美填充整个正方形画布。
附件:
输入
这是我们为 2023 年 GPT-4 发布设计的纪念币。
附件:
输入
此图展现了我们为 GPT-4o 发布特别设计的纪念币。
硬币中心环绕 OpenAI 标志,内圈上方刻有“GPT-4o”,下方为“2024”。
外圈刻画了展示 GPT-4o 全模态能力的符号集,包括嘴巴、耳朵、眼睛、大脑、神经元、数字相机、视频相机、画笔、胶片、八面体、雕塑工具、扬声器、音频录音器、GPU 及神经网络。
每个符号均精心选择,各自为硬币的设计增添独特风采。硬币上只展示一个 GPU。
输出
会议笔记,多位发言者
输入
这段音频中有多少位发言者,发生了什么事?
附件:AMI corpus (CC by 4.0), https://groups.inf.ed.ac.uk/ami/corpus/
输出
该音频包含四位发言者。内容主要是一次项目启动会议,项目经理 Mark 首先自我介绍,并邀请其他团队成员依次介绍自己及各自的角色。Mark 之后,另外三位发言者分别是市场营销专家 Dirk、用户界面设计师 Nick 和工业设计师 Xavier,他们分别介绍了自己在项目中的主要职责。
输入
你能用发言者的名字来转录吗?
输出
Mark: 早上好,大家。这是我们团队的首次会议。
Team: 早安。
Mark: 我是 Mark,今天和整个项目期间的项目经理。我会主持今天的介绍,帮助我们启动项目。今天的议程是……首先,我们都是新朋友,最好先相互了解一下。让我们从这里开始。请从你做起,介绍一下自己。你是负责市场营销的吗?
Dirk: 是的,我叫 Dirk Meinfelt,在本项目中我负责市场营销。我将探究用户的需求和我们可以提供的新产品方案。
Mark: 很好。你是?
Nick: 我是 Nick de Boer,担任用户界面设计师。我主要关注的是从用户视角出发的技术设计。
Mark: 好的。
Xavier: 我是 Xavier Joerkens,工业设计师。我需要解决的三个主要问题是……
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。