OpenAI春季更新：GPT-4o模型来了！！_gpt 4o有什么限制

作者：Monodyee | 2024-06-18 02:07:03

踩

gpt 4o有什么限制

昨晚OpenAI直播发布了春季更新，推出了GPT-4o模型。这个模型是继gpt-4-turbo之后官方定义的新旗舰模型，可以实时对音频、视觉和文本进行推理。

它真的让人觉得，AGI又更近一步了！！

GPT-4o介绍

GPT-4o（“o”代表“omni”，意为“全能的”）接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。

在 GPT-4o 之前，ChatGPT 对话也是支持语音模式的。原来的语音模式是由三个独立模型组成的管道：

这个过程意味着在第二个步骤的智能模型交互的时候，已经丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。

所以OpenAI通过GPT-4o模型，跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。不只是一个多模态的输入，还是一个能处理多模态的大脑！这种实现方式也注定GPT-4o拥有更优秀的视觉和音频理解。

之前的语音模式，GPT-3.5的平均延迟为 2.8 秒， GPT-4的平均延迟为 5.4 秒。

而GPT-4o响应音频输入的平均时间为 320 毫秒，有时甚至达到 232 毫秒，已经接近人类在谈话中的响应时间了。

GPT-4o在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配，同时 API 的速度也更快，成本降低了近 50%。

中文token计数减少 1.4 倍。例如以下这段文字的token从原先的34个减少到24个。

你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你！

以下是官方提供的GPT-4o人机交互演示视频

你看完是不是也觉得跟一个真人在视频通话没有什么区别

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Monodyee/article/detail/733169