赞
踩
在AI领域,速度与性能的较量从未停止。GPT-4o的横空出世,不仅在速度上完胜前代(部分群友已测),更是在模型参数量上实现了惊人的优化。这意味着什么?它的能力边界在哪里?接下来将探讨GPT-4o在处理音频、视觉和文本数据方面的突破性进展,以及它如何比现有模型更快、更强大。
GPT-4o 是 OpenAI 的新旗舰模型,可以实时推理音频、视觉和文本。GPT-4o 最初将在 ChatGPT 和 API 中作为文本和视觉模型提供(ChatGPT 将继续通过预先存在的语音模式功能支持语音)。具体来说,GPT-4o 将在 ChatGPT Free、Plus 和 Team(Enterprise 即将推出)以及 Chat Completions API、Assistants API 和 Batch API 中提供。
GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出的任意组合。它可以在短短 232 毫秒内响应音频输入,平均为 320 毫秒,这与对话中的人类响应时间相似。它在英语文本和代码上的 GPT-4 Turbo 性能相匹配,在非英语语言的文本上也有显着改进,同时在 API 中也更快且便宜 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。
在 OpenAI API 中访问 GPT-4o
在 OpenAI API 中访问 GPT-4、GPT-4 Turbo 和 GPT-4oGPT-4 Turbo 与 GPT-4o
GPT-4o 具有相同的高智能性,但比 GPT-4 Turbo 更快、更便宜,并且具有更高的速率限制。具体来说:
定价:GPT-4o 比 GPT-4 Turbo 便宜 50%,输入代币为 5 美元/M,输出代币为 15 美元/M。
速率限制:GPT-4o 的速率限制比 GPT-4 Turbo 高 5 倍——每分钟最多 1000 万个代币。
速度:GPT-4o 的速度是 GPT-4 Turbo 的 2 倍。
视觉:在与视觉能力相关的评估中,GPT-4o 的视觉能力表现优于 GPT-4 Turbo。
多语言:GPT-4o 比 GPT-4 Turbo 改进了对非英语语言的支持。
GPT-4o 目前的上下文窗口为 128k,知识截止日期为 2023 年 10 月。
ChatGPT 访问 GPT-4o 【 免费界面访问】
GPT-plus【付费界面访问】
在 GPT-4o 之前,您可以使用语音模式与 ChatGPT 交谈,平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。为了实现这一点,语音模式是一个由三个独立模型组成的管道:一个简单的模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将该文本转换回音频。这个过程意味着智能的主要来源 GPT-4 会丢失大量信息——它无法直接观察音调、多个扬声器或背景噪音,也无法输出笑声、歌声或表达情感。
openai提供的探索案例
按照传统基准测试,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉能力方面创下了新的高水位线。
Text Evaluation文本评估
改进推理 - GPT-4o 在 0 次 COT MMLU(常识问题)上创下了 88.7% 的新高分。所有这些 evals 都是通过我们新的简单 evals 库收集的。此外,在传统的 5 次无 CoT MMLU 上,GPT-4o 创下了 87.2% 的新高。(注:Llama3 400b仍在训练中)
Audio ASR performance 音频ASR性能
音频 ASR 性能 - GPT-4o 在所有语言中显著提高了 Whisper-v3 的语音识别性能,尤其是对于资源匮乏的语言。
Audio translation performance音频翻译性能
音频翻译性能 - GPT-4o 在语音翻译方面创下了新的领先地位,并在 MLS 基准测试中优于 Whisper-v3。
M3Exam Zero-Shot Results M3Exam考试成绩
M3Exam - M3Exam 基准测试既是多语言评估,也是视觉评估,由来自其他国家标准化考试的多项选择题组成,有时包括数字和图表。GPT-4o 在所有语言的基准测试中都比 GPT-4 强。(我们省略了斯瓦希里语和爪哇语的视力结果,因为这些语言只有 5 个或更少的视力问题。
Vision understanding evals 视觉理解评估
视觉理解评估 - GPT-4o 在视觉感知基准测试中实现了最先进的性能。所有视觉评估均为 0 次,其中 MMMU、MathVista 和 ChartQA 为 0 次 CoT。
GPT-4o 是openai突破深度学习界限的最新一步,这一次是朝着实用可用性的方向发展。在过去的两年里,openai花了很多精力来提高堆栈每一层的效率。作为这项研究的第一个成果,我们能够更广泛地提供 GPT-4 级别的模型。GPT-4o 的功能将迭代推出(从今天开始扩展红队访问)。
GPT-4o 的文本和图像功能今天开始在 ChatGPT 中推出。openai将 GPT-4o 在免费套餐中提供,并向 Plus 用户提供高达 5 倍的消息限制。openai将在未来几周内在 ChatGPT Plus 中推出带有 GPT-4o 的新版本语音模式。
开发人员现在还可以在 API 中将 GPT-4o 作为文本和视觉模型进行访问。与 GPT-4 Turbo 相比,GPT-4o 的速度快 2 倍,价格减半,速率限制高出 5 倍。openai计划在未来几周内向 API 中的一小群受信任的合作伙伴推出对 GPT-4o 新音频和视频功能的支持。
这里特意为你准备的“GPT-4o官方指南”。
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
保证100%免费
】赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。