Hello, GPT-4o！

作者：从前慢现在也慢 | 2024-05-17 17:00:17

踩

hello gp4-4o

2024年5月13日，OpenAI 在官网正式发布了最新的旗舰模型 GPT-4o

它是一个 多模态模型，可以实时推理音频、视频和文本。

* 发布会完整版视频回顾：https://www.youtube.com/watch?v=DQacCB9tDaw

GPT-4o（“o”代表“omni”，意为“全能”）是迈向更自然的人机交互的一大进步——它能够接受任意组合的文本、音频和图像作为输入，并输出各种组合的文本、音频和图像。

它能够在232毫秒内对音频输入作出响应，平均响应时间为320毫秒，与人类在对话中的响应时间相近。

在英文和代码方面，它与GPT-4 Turbo的性能相当，而在非英文语言的文本方面有着显著的提升。

此外，它在API方面不仅更快，而且成本降低了50%。与现有模型相比，GPT-4o在视觉和音频理解方面表现尤为出色。

* GPT-4o发布会前的预热视频

在这个发布会前的预热视频中，OpenAI的员工拿着手机拍摄周围的场景，GPT-4o非常快就提供了对周围环境的描述。接着员工让GPT-4o猜测今天要做什么，它说可能会与OpenAI有关，例如举办发布会之类的。

当员工提到这个发布会与“你”有关时，GPT-4o的回答让人有些惊讶，它竟然表现出人类般的惊讶和停顿，这是 以往任何语音助手都没有的技术特征。

曾于2013年获得奥斯卡最佳原创剧本的电影《Her》中，就展现了一场人与AI的爱恨纠葛，而11年后的今天，无所不能的“Her”已经由GPT-4o变成了现实，从今天起我们每个人都能拥有一个“Her”！

GPT-4o功能展示

* 以下为部分功能展示，之后我们将在视频号上公布GPT-4o的功能展示合辑，欢迎大家关注！

值得一提的是，在第四个展示案例中，家长要求GPT-4o 不要直接告诉答案，而是像名师一般，“授之于鱼，不如授之于渔”并逐步 引导学生自我思维并最终学会解题思路 的方式。

GPT-4o功能评估

在传统基准测试中，GPT-4o 在文本、推理和编码智能方面实现了与 GPT-4 Turbo 相当的性能，同时在多语言、音频和视觉能力方面设立了新的高水平标杆。

1、文本性能

提升的文本推理能力：GPT-4o在MMLU上取得了 88.7% 的新高分，超过了包括Claude 3 Opus、Gemini Pro 1.5、Gemini Ultra 1.0、Llama3 400b等目前市面上著名大模型。

2、音频ASR性能

音频ASR性能：GPT-4o 在所有语言上显著提高了与Whisper-v3的语音识别性能，特别是对于资源较少的语言。

3、音频翻译性能

音频翻译性能：GPT-4o 在语音翻译方面取得了新的 最先进水平，并在MLS基准上优于Whisper-v3。

4、视觉理解评估

视觉理解评估：GPT-4o 在视觉感知基准测试上取得了 最先进的性能。

目前，GPT-4o 的文本和图像功能已经对ChatGPT开放，不久后，OpenAI将在ChatGPT Plus中推出GPT-4o的语音模式的新Alpha版本。让我们期待更强大的语音助手出现吧。

--- End ---

欢迎关注微软智汇AI 官方账号

一手资讯抢先了解

喜欢就点击一下在看吧~

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/584445