赞
踩
昨晚OpenAI直播发布了春季更新,推出了GPT-4o模型。这个模型是继gpt-4-turbo之后官方定义的新旗舰模型,可以实时对音频、视觉和文本进行推理。
它真的让人觉得,AGI又更近一步了!!
GPT-4o(“o”代表“omni”,意为“全能的”)接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。
在 GPT-4o 之前,ChatGPT 对话也是支持语音模式的。原来的语音模式是由三个独立模型组成的管道:
一个简单模型将音频转录为文本
GPT-3.5 或 GPT-4 接收文本并输出文本
简单模型将该文本转换回音频。
这个过程意味着在第二个步骤的智能模型交互的时候,已经丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。
所以OpenAI通过GPT-4o模型,跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。不只是一个多模态的输入,还是一个能处理多模态的大脑!这种实现方式也注定GPT-4o拥有更优秀的视觉和音频理解。
之前的语音模式,GPT-3.5的平均延迟为 2.8 秒 , GPT-4的平均延迟为 5.4 秒 。
而GPT-4o响应音频输入的平均时间为 320 毫秒,有时甚至达到 232 毫秒,已经接近人类在谈话中的响应时间了。
GPT-4o在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,同时 API 的速度也更快,成本降低了近 50%。
中文token计数减少 1.4 倍。例如以下这段文字的token从原先的34个减少到24个。
你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你!
以下是官方提供的GPT-4o人机交互演示视频
流畅的对话体验
实时视频画面理解能力
接近真人的情绪表达
你看完是不是也觉得跟一个真人在视频通话没有什么区别
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。