当前位置:   article > 正文

OpenAI春季更新:GPT-4o模型来了!!_gpt 4o有什么限制

gpt 4o有什么限制

昨晚OpenAI直播发布了春季更新,推出了GPT-4o模型。这个模型是继gpt-4-turbo之后官方定义的新旗舰模型,可以实时对音频、视觉和文本进行推理。

它真的让人觉得,AGI又更近一步了!!

GPT-4o介绍

GPT-4o(“o”代表“omni”,意为“全能的”)接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。

真正的多模态大模型

在 GPT-4o 之前,ChatGPT 对话也是支持语音模式的。原来的语音模式是由三个独立模型组成的管道:

  1. 一个简单模型将音频转录为文本

  2. GPT-3.5 或 GPT-4 接收文本并输出文本

  3. 简单模型将该文本转换回音频。

这个过程意味着在第二个步骤的智能模型交互的时候,已经丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。

所以OpenAI通过GPT-4o模型,跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。不只是一个多模态的输入,还是一个能处理多模态的大脑!这种实现方式也注定GPT-4o拥有更优秀的视觉和音频理解。

更快的响应速度

之前的语音模式,GPT-3.5的平均延迟为 2.8 秒 , GPT-4的平均延迟为 5.4 秒 。

而GPT-4o响应音频输入的平均时间为 320 毫秒,有时甚至达到 232 毫秒,已经接近人类在谈话中的响应时间了。

更高的性价比

GPT-4o在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,同时 API 的速度也更快,成本降低了近 50%。

中文token计数减少 1.4 倍。例如以下这段文字的token从原先的34个减少到24个。

你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你!

GPT-4o交互演示

以下是官方提供的GPT-4o人机交互演示视频

  • 流畅的对话体验

  • 实时视频画面理解能力

  • 接近真人的情绪表达

你看完是不是也觉得跟一个真人在视频通话没有什么区别

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/733169
推荐阅读
相关标签