实时“秒回”，像真人一样语音聊天，GPT-4o模型强到恐怖

作者：菜鸟追梦旅行 | 2024-05-23 02:02:17

踩

今天凌晨OpenAl发布了 GPT-4o，这是一种新的人工智能模式，集合了文本、图片、视频、语音的全能模型。

能实时响应用户的需求，并通过语音来实时回答你，你可以随时打断它。还具有视觉能力，能识别物体并根据视觉做出快速的响应和回答，具有非常强的逻辑推理能力。 它的速度比 GPT4-turbo快2倍，价格便宜 50%!

根据传统的基准测试，GPT-4o 在文本、推理和编码智能方面的性能达到了 GPT-4 Turbo 的水平，同时在多语言、音频和视觉功能方面也创下了新高。

GPT-4o 的新功能

主要特点与功能

模型优势：GPT-4o是最新的旗舰模型，具有 GPT-4级别的智能，但速度更快，且在文本、语音和视觉方面的能力得到了显著提升。
图像理解与讨论：GPT-4o在理解和讨论用户分享的图像方面表现优于任何现有模型。例如，用户可以拍摄不同语言的菜单，与 GPT-4o对话以翻译、了解食物的历史和重要性，以及获取推荐。
即将推出的语音模式：未来的改进将支持更自然的实时语音对话和通过实时视频与 ChatGPT对话的能力。例如，用户可以在观看现场体育赛事时，请求 ChatGPT 解释规则。计划在未来几周内以 alpha 版本推出新的语音模式，并向 Plus 用户提供早期访问。
可用性和用户访问

多语言支持：GPT-4o的语言能力在质量和速度上均有改进，现在 ChatGPT 支持超过 50 种语言的注册、登录、用户设置等。
用户层次：目前正向 ChatGPT Plus 和团队用户推出 GPT-4o，企业用户即将可用。同时也开始向 ChatGPT Free 用户推出，但有使用限制。Plus 用户的消息限制是 Free 用户的5倍,团队和企业用户则有更高的限制。

增强智能与高级工具的普及

使命与目标：使先进的 AI 工具能够为尽可能多的人提供服务。每周有超过一亿人使用ChatGPT。在未来几周，我们将开始向 ChatGPT Free 用户推出更多智能和高级工具。

综合交互能力

多模态输入与输出：GPT-4o是第一个将文本、音频和图像输入整合的模型，可以生成文本、音频和图像的任意组合输出。这种设计显著提高了与计算机的自然交互能力。

性能提升与成本效率

语音模式的进步

从多模型到单一模型：与之前版本相比，GPT-4o 通过单一模型端到端训练，处理所有输入和输出。这避免了信息丢失，使模型能直接处理语调、多个说话者或背景噪音等，并能输出笑声、唱歌或表达情感。

测试与迭代

广泛的红队测试：与70多位外部专家合作进行红队测试，涵盖社会心理学、偏见与公正、误信息等领域，以识别新增模态带来的风险，并据此建立安全干预措施。

持续风险缓解：继续发现并缓解新风险。

部署与可用性

逐步推出：GPT-40 的文本和图像功能已开始在 ChatGPT 中推出。开发者现在也可以通过API访问作为文本和视觉模型的 GPT-40。

语音和视频功能：计划在未来几周内向一小部分受信任的合作伙伴推出新的音频和视频能力。

更详细的功能介绍和展示

https://openai.com/index/hello-gpt-4o/

高性价比GPU资源：https://www.ucloud.cn/site/active/gpu.html?ytag=gpu_wenzhang_tongyong_shemei

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/610867