Open AI GPT-4o ，用魔法打败魔法

作者：木道寻08 | 2024-07-04 18:07:59

踩

OpenAI 于5月14日1点整宣布，全新版本GPT-4o正式发布。

紧随其后的是微软宣布召开I/O 2024 开发者大会。

在发布会上，Google 不仅对过往的大模型进行了升级，还发布了多款新模型，其中包括Gemini（双子座，微软发布的大模型，目前唯一将上下文窗口长度卷到到 100 万个 tokens）的全新版本。

一时之间争论四起：

Sam Altman 又又又整活了吗？

Sam Altman 要用魔法打败魔法？
这次狼真的来了吗？

让子弹再飞一会儿？
......

首先让我们来对比一下，GPT-4o对比之前版本，功能有哪些升级？

GPT-4o中的 o来自于Omni的缩写，即“全能”的意思，也正如它的名字一样，它是一款全能型AI选手，它能够接受任意文本、音频、图像的组合，并且生成文本、音频和图像输出。

GPT-4o能够感知人类情绪，并以任意一种风格生成输出声音。无论是唱歌还是讲故事，还是机器人声音，统统都能满足。

其次它还具有强大的视觉能力，它可以分析表格数据。

GPT-4o对比其他大模型的优势在于：GPT4o在响应速度方面，几乎解决了延迟问题。GPT-4o的响应音频输入的最短时长为232毫秒，平均响应时长320毫秒，与人类的反应速度接近。

相较于去年GPT3.5第一次的惊艳登场引发的全民AI热潮，这次的版本更新没有引发大面积关注，很显然它没有满足观众的“胃口”。

相关技术专家指出，GPT-4o一些功能只是看起来唬人，但很难称得上是真正意义上的功能性突破，一些创新应用比如：在对话里增加语气、即兴演唱等只能算得上是差强人意。

今年开年Open AI率先推出视频生产模型Sora，一石激起千层浪，大众一度以为科幻电影里描绘的人工智能世界图景近在咫尺，但后续的实践应用几乎没有，商业化的配套应用也迟迟未见，让大众对于AI看好的势头如同浇了一盆冷水。

目前市场对于大模型反应已经渐趋冷静，投资也渐趋理智。而国内在经历过群模乱舞，各类大模型层出不穷、功能千奇百样的混战局面之后，观众的神经早就被训练粗壮，一般性的功能更新的确激发不了任何猎奇心理。

目前国内更为关注的是AI大模型的垂直落地应用：比如专业型的垂直类模型，医疗、金融等等以及针对中小型企业应用的小模型。

有意思的是在国外还在“卷“大模型功能性的天花板的时候，国内更为关注的则是“用得起”，助力企业用户以更低成本加速业务创新。

5月6日，号称大模型界的“拼多多”Deepseek在行业内掀起了价格战，将其大模型DeepSeek-V2 API定价为每百万Tokens输入1元、输出2元（32K上下文）。随后字节正面迎战，推出 “豆包大模型”定价为0.0008元/千 tokens，能够处理1,500多个汉字，从此大模型价格战从“以分计价”进入了到“以厘计价”阶段。

无数事件告诉我们，商业模式和技术创新仿佛是世界向前发展的两个必不可少的一左一右的两个轮子。AI的落地应用既要有好的技术创新做基础大模型，也要有低成本的推理服务让大模型被广泛应用。

如果GPT4o只是Open AI推出的一盘餐前小菜，而真正的大餐其实是GPT5.0，那么我们可以小小期待一下它还将带来哪些让人眼前一亮的新功能。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/木道寻08/article/detail/787768