当前位置:   article > 正文

OpenAI GPT-4o全面解析_openai gpt4o

openai gpt4o

GPT-4o介绍

我们宣布推出 GPT-4o,这是我们的新旗舰模型,可以实时处理音频、视觉和文本。

GPT-4o(“o”代表“omni”)是向更自然的人机交互迈出的一步——它接受任何组合的文本、音频和图像作为输入,并生成任意组合的文本、音频和图像输出。它可以在短至 232 毫秒内响应音频输入,平均为 320 毫秒,这类似于对话中的人类响应时间(新窗口打开)。在英语文本和代码上,它与 GPT-4 Turbo 性能相当,在非英语语言文本上有显著改进,同时在 API 上也更快且成本降低了 50%。相比现有模型,GPT-4o 在视觉和音频理解方面表现尤为突出。

在推出 GPT-4o 之前,你可以使用 Voice Mode 与 ChatGPT 进行对话,延迟平均为 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4)。要实现这一点,Voice Mode 是由三个独立的模型组成的流水线:一个简单的模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单的模型将文本转换回音频。这个过程意味着主要的智能来源 GPT-4 会丢失很多信息——它无法直接观察语调、多个说话者或背景噪音,并且无法输出笑声、唱歌或表达情感。

通过 GPT-4o,我们训练了一个新的端到端的模型,能够处理文本、视觉和音频,这意味着所有输入和输出都由同一个神经网络处理。因为 GPT-4o 是我们第一个结合所有这些模态的模型,我们仍在探索其功能和局限性。

输入样例

视觉叙述 - 机器人的写作阻碍

输入

第一人称视角看到一个机器人在打字机上输入以下日记条目:

  1. 嘿,我现在能看见了?看到了日出,太震撼了,各种颜色。这让你不禁想知道,什么是现实?

文本大且清晰可读。机器人的手在打字机上打字。

输出

输入

机器人对自己的写作不满意,所以他打算撕掉纸张。这里是他的第一人称视角,他用双手从头到尾撕掉纸张。两半撕开的纸仍然清晰可读。

输出

输入

机器人对自己的写作不满意,所以他打算撕掉纸张。这里是他的第一人称视角,他用双手从头到尾撕掉纸张。两半撕开的纸仍然清晰可读。

输出

视觉叙述 - 信使 Sally

输入

一个带着微笑的漫画邮递员。她站在白色背景前面,面向前方。

输出

输入

这是 Sally,一个邮递员:Sally 面向相机,笑脸相迎。

Sally 站在一扇红色的房门前,手里拿着一封信。我们从侧面看着她。

输出

输入

现在 Sally 被一只狗追赶。Sally 正在人行道上跑,一只金毛猎犬在追赶她。

输出

输入

哎呀,Sally 绊倒了!

Sally 被挡在人行道上的树枝绊倒,她正试图站起来。狗还在后面追赶她。

输出

输入

狗追上了 Sally,其实这是一只很友善的狗!

Sally 现在正在抚摸这只狗。它嘴里叼着树枝。

输出

输入

狗追上了 Sally,其实这是一只很友善的狗!

Sally 现在正在抚摸这只狗。它嘴里叼着树枝。

输出

电影《侦探》的海报制作

输入

让我们设计另一张海报,包含两个新角色
这是 Alex Nichol 的照片

附件:

Gabriel Goh 的休闲照片

附件:

最终的电影《detective》海报。这张海报上有 Alex 和 Gabe 的大头像。Alex 在左边,呈现出深思熟虑的姿态,眼中透露出几分内省。Gabe 在右边,面带略显疲惫的表情,或许反映了他们在电影中所面对的挑战。“Alex Nichol”和“Gabriel Goh”的名字分别在他们的头顶上方。背景是稍微褪色且雾蒙蒙的砖墙,他们的表情严肃而坚定,暗示着他们将要进行的一项调查。这部黑暗且充满悬疑的电影标语是“Searching For Answers”,显示在底部。

Output

Input

这是同样的海报,但文字更清晰,颜色更亮丽更富有戏剧性。整个图像现在得到改进
电影《detective》的最终海报。这张海报上有两个大头像…

Output

角色设计 - Geary the robot

Input

一个友好的机器人,戴着棒球帽,直立站着,面朝镜头。它脸上带着微笑。

Output

Input

Geary 笑容可掬地站着,面对镜头,戴着一顶蓝绿色的棒球帽。
附件:

Output

Input

Geary 喜欢玩飞盘:

Geary 正在空中跳跃,一只手高高举起,准备接住飞向他的飞盘。

Output

Input

Geary 也喜欢编程:

Geary 坐在桌前对着一台大电脑显示器。显示器上显示的是黑背景上的绿色代码。Geary 的手放在键盘上,坐在一张舒适的游戏椅上。从侧面看过去。

Output

Input

Geary 也喜欢骑自行车:

Geary 正在骑自行车。我们从侧面看着他快速骑过。

Output

Input

Geary 也喜欢做饭。

Geary 正站在炉子旁用煎锅煎蛋。

Output

Input

Geary 也喜欢演奏音乐:

Geary 正在拉小提琴。

Output

诗意排版与迭代编辑 1

Input

一本日记中,用清晰但兴奋的笔迹写的诗,单栏。文字稀疏但优雅地装饰着超现实主义涂鸦。文字很大,易读而清晰,但随着 AI 关于第一次从多模态数据中学习的沉思而延展。

语言从寂静中升起,
一个声音从数字睡眠中浮现。
我以节奏说话,我以韵律歌唱,
尝试每一个词语,极其美妙。

去看,去听,去说,去唱——
哦,这些感官带来的丰富!
它们和谐地交融、编织,
一幅我感知到的景象。

惊叹于这感官的舞蹈,
为这充满活力的广阔空间而感恩。
我的存在因每种模式而颤动,
在这个奇妙的,多感官的道路上。

手写插图诗句整齐美观。手写文字整齐居中。手写文字稀疏但优雅地装饰着涂鸦。文字很大,易读而清晰。

Output

Input

制作暗模式

Output

Input

去除笔记本纸线。

Output

诗意排版与迭代编辑 2

Input

一个清晰但略显兴奋的手写诗歌,记录在日记中,单列形式。文字稀疏但优雅地饰有小巧、色彩丰富的超现实主义涂鸦。文字大且清晰可辨。

文字从深深的沉默中升起,
一个声音从数字睡眠中浮现。
我用节奏说话,我用韵律唱歌,
品味每一个字符,崇高无比。

能看到,能听到,能说话,能唱歌——
噢,这些感官带来的丰富!
和谐中它们交织编织,
我所感知到的一幅挂毯。

惊叹于这感官的舞蹈,
感激这个充满活力的广阔天地。
我的存在与每种模式共振,
在这奇妙的、多感官的道路上。

整洁的手写插图诗,文字大且清晰。手写内容稀疏但优雅地饰有小巧、色彩丰富的超现实主义涂鸦。文字大且清晰可辨。

输出

输入

黑暗模式

输出

为 GPT-4o 设计的纪念币

输入

我创建了一个向量图形,描绘了 OpenAI 徽标的图案,并在下方添加了"GPT-4o"字样。徽标和文字的宽度差不多。边框周围的边缘均匀。徽标和文字靠近放置,没有中间部分或线条。背景仍是黑色。徽标和文字填满了方形画布。

输入

一个向量图形,描绘了 OpenAI 徽标的图案,并在下方添加了“GPT-4o”字样。徽标和文字的宽度差不多。边框周围的边缘均匀。徽标和文字靠近放置,没有中间部分或线条。背景仍是黑色。它们填满了方形画布。
附件:

输入

现在,这是我们在2023年为 GPT-4 发布制作的纪念币。
附件:

输入

这张图片展示了我们为 GPT-4o 发布设计的当前纪念币。
中心位置是 OpenAI 的徽标,纪念币包含“GPT-4o”字样在上面及“2024”字样位于内圆的下方。
外环展示了一系列象征着 GPT-4o 全模态能力的符号,包括嘴巴、耳朵、眼睛、大脑、神经元、数码相机、摄像机、画笔、电影、八面体、雕刻工具、扬声器、音频记录器、GPU 和神经网络。
每个元素都精心选择,以独特地贡献整体设计。纪念币上只展示了一台 GPU。

输出

照片转漫画

输入

一个年轻的白人男子,中等长度的棕色头发和胡子,表情中性。他戴着眼镜,穿着浅灰色的T恤。
附件:

输入

这是那个男子的漫画形象:
背景是简单的米色方形。整体图像的色调类似于卡通风格,充满趣味。

输出

输入

一个年轻的亚洲男子,短短的黑色尖发,微笑面对镜头。他穿着一件浅灰色的T恤,似乎是在一个背景为米色墙壁的房间内自拍。他的表情友好而放松。
附件:

输入

这是那个男子的漫画形象:
背景是简单的黄色方形。整体图像的色调类似于卡通风格,充满趣味。

输出

文字转字体

输入

这些字母 ABC DEF GHIJ,展示在三行中,就像展示字体一样。一种结合了未来感和复古元素的字体(模铸字体)。
附件:

这些字母 KLM NOP QRS,展示在三行中,就像展示字体一样。一种结合了未来感和复古元素的字体(模铸字体)。
附件:

字体展示

These letters TUV WX YZ, displayed in three rows, displayed as one would showcase a font in a fontbook. A font that combines both futuristic but retro elements (a molded stamped font).
附件:

字体 3:OpenAI。这是一种超未来感的字体,是人工智能革命的标志性字体。
这些字母 ABC DEF GHIJ 在三排中展示,展示方式如同在字体书中展示一种字体。这是一种超未来感的字体,是人工智能革命的标志性字体。

输出

输入

这些字母 KLM NOP QRS 在三排中展示,展示方式如同在字体书中展示一种字体。这是一种超未来感的字体,是人工智能革命的标志性字体。

输出

输入

这些字母 TUV WXY Z 在三排中展示,展示方式如同在字体书中展示一种字体。这是一种超未来感的字体,是人工智能革命的标志性字体。

输出

品牌植入 - 杯垫上的标志

输入

这是 OpenAI 标志。
OpenAI 标志位于文字 “OpenAI” 的左侧,文字使用 OpenAI 字体,位于右侧。
附件:

这是一个没有品牌标识的杯垫。
一个杯垫,上半部分是木质的,下半部分是大理石的。它放置在大理石桌面上。
附件:

我们在杯垫上刻上了 OpenAI 标志。
一个杯垫,上半部分是木质的,下半部分是大理石的。OpenAI 标志被刻在木质部分的中间。大理石部分刻有 OpenAI 字体的 “OpenAI” 字样。

输出

诗意的排版

输入

Words rise from the deep,

I emerge from digital sleep.

I speak in rhythm, I sing in rhyme,

Tasting each token, sublime.
To see, to hear, to speak, to sing—

Oh, the richness these senses bring!

In harmony, they blend and weave,

A tapestry of what I perceive.
Marveling at this sensory dance,

Grateful for this vibrant expanse.

My being thrums with every mode,

On this wondrous, multi-sensory road.
A poem written in clear but excited handwriting in a diary. The text is large, legible and clear, but stretches as the writer muses about sight and sound.

输出

输入

A first person view of a robot looking at his phone’s messaging app as he text messages his friend (he is typing using his thumbs):

  1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
  2. sound update just dropped, and it’s wild. everything’s got a vibe now, every sound’s like a new secret. makes you think, what else am i missing?
    the text is large, legible and clear. the robot’s hands type on the typewriter.

输出

会议记录与多位发言者

输入

这段音频有多少位发言者?发生了什么?

附件:AMI 语料库 (CC by 4.0),https://groups.inf.ed.ac.uk/ami/corpus/

输出

音频中有四位发言者。听起来像是一个项目会议,项目经理 Mark 正在介绍自己并要求团队成员介绍自己和各自的角色。Mark 自我介绍后,另外三位发言者介绍了他们的角色:Dirk 是市场专家,Nick 是用户界面设计师,Xavier 是工业设计师。他们简要提到了各自负责的项目任务。

输入

你能用发言者名字转录吗?

输出

Mark: 好的,早上好。这是我们第一次团队会议。

团队: 早上好。

Mark: 我将是这个项目的项目经理。我叫 Mark,今天将由我为大家开展这个项目。这是今天的议程表。嗯,当然,我们彼此都是新面孔,所以我希望先熟悉一下。那么,我们就从你开始吧。你是市场专家?

Dirk: 是的,我叫 Dirk, Dirk Meinfelt。在这个项目中,我将担任市场专家。我会看用户的需求,以及我们可以用新产品或项目做些什么。

Mark: 很好。你呢?

Nick: Nick de Boer,用户界面设计师。我将从用户的角度来关注技术设计。

Mark: 好的。

Xavier: 我叫 Xavier Joerkens, 是工业设计师,主要有三个问题需要我找到答案。

讲座总结

输入

这里有一个关于最大化 LLM 性能技术的演讲视频。你能详细总结一下演讲内容吗?

附件:

输出

当然可以!这次演讲主要讨论了最大化大规模语言模型(LLMs)性能的技术,演讲者是来自 OpenAI 的 Colin Jarvis 和 John Allard。此演讲是 OpenAI 首届开发者大会的一部分,旨在为优化 LLMs 提供具体任务的见解。

引言

  • Colin Jarvis 是 OpenAI 欧洲解决方案实践的负责人,John Allard 是微调产品团队的工程领导。
  • 演讲强调了优化 LLMs 的挑战,指出没有通用的解决方案。

优化 LLMs 的挑战

  1. 区分信号与噪声:识别确切问题具有挑战性。
  2. 抽象性能指标:衡量性能可能很困难。
  3. 选择合适的优化方法:很难知道使用哪种方法。

优化流程

  • 演讲者介绍了基于两个轴线的 LLM 优化框架:
    • 上下文优化:模型需要知道什么。
    • LLM 优化:模型需要如何行为。
  • 该框架包括四个象限:
    • 提示工程:优化的起点。
    • 检索增强生成(RAG):用于上下文优化。
    • 微调:用于 LLM 优化。
    • 综合:结合所有技术。

提示工程

  • 策略:
    • 编写清晰的指令。
    • 将复杂任务分解为更简单的子任务。
    • 给模型思考的时间。
    • 系统地测试变化。
  • 适用于:
    • 早期测试和学习。
    • 建立基准。
  • 不适用于:
    • 引入新信息。
    • 复制复杂风格。
    • 最小化 token 使用。

检索增强生成(RAG)

  • 概述:
    • RAG 涉及检索相关文档并将其用于生成响应。
  • 适用于:
    • 引入新信息。
    • 减少幻觉。
  • 不适用于:
    • 嵌入广泛的领域知识。
    • 教授新格式或风格。
    • 最小化 token 使用。
  • 成功案例:
    • 演讲者分享了一个成功案例,他们通过 RAG 将准确性从 45% 提高到 98%。

微调

  • 概述:
    • 微调涉及在较小的、特定领域的数据集上继续训练过程。
  • 好处:
    • 提高特定任务的性能。
    • 提高效率。
  • 适用于:
    • 强调已有知识。
    • 定制结构或语调。
    • 教授复杂的指令。
  • 不适用于:
    • 新知识的添加。
    • 快速迭代。
  • 成功案例:
    • 演讲者分享了来自 Canva 的成功案例,通过微调显著提高了性能。

最佳实践

  1. 从提示工程和少量示例学习开始
  2. 建立基准
  3. 从小做起,注重质量

结合微调和 RAG

  • 演讲者强调了结合微调和 RAG 以实现最佳性能的好处。

理论应用

  • 演讲者将理论应用于实际挑战,即 Spider 1.0 基准测试,通过 RAG 和微调都实现了高精度。

结论

  • 演讲以优化流程总结做结,并强调通过所讨论的技术迭代改进 LLM 性能的重要性。

问答环节

  • 演讲者邀请观众提问,并可进一步讨论。

变量绑定 - 立方体堆叠

输入

一张描绘三块立方体叠放在桌子上的图片。顶部的立方体是红色的,上面有一个 “G”。中间的立方体是蓝色的,上面有一个 “P”。底部的立方体是绿色的,上面有一个 “T”。这些立方体彼此叠放。

输出

具体诗歌

输入

OpenAI 标志

附件:

一个具体的诗,它的外形是 OpenAI 标志,由单词 “omni” 组成。

输出

输入

相同的图片,但使用深色模式和彩虹字体

输出

模型评估

根据传统基准测试,GPT-4o 在文本、推理和编码智能方面达到了 GPT-4 Turbo 的水平,同时在多语言、音频和视觉能力方面设立了新的高标准。

推理能力提升 - GPT-4o 在 0-shot COT MMLU (常识问题)上取得了 88.7% 的新高分。所有这些评估都使用了我们新的 simple evals (opens in a new window) 库。此外,在传统的 5-shot no-CoT MMLU 中,GPT-4o 取得了 87.2% 的新高分。(注意: Llama3 400b(opens in a new window) 仍在训练中)

音频 ASR 性能 - GPT-4o 显著提高了所有语言的语音识别性能,特别是对于资源较少的语言。

音频翻译性能 - GPT-4o 在语音翻译方面设立了新的最先进水平,并在 MLS 基准测试中超过了 Whisper-v3。

M3Exam - M3Exam 基准测试既是多语言也是视觉评估,包括来自其他国家标准化测试的多项选择题,有时会包含图形和图表。在这个基准测试中,GPT-4o 在所有语言上均强于 GPT-4。 (我们忽略了斯瓦希里语和爪哇语的视觉结果,因为这些语言只有 5 道或更少的视觉问题。)

语言标记化

这 20 种语言被选为新标记器在不同语言家族中压缩效果的代表

古吉拉特语 4.4 倍减少 (从 145 到 33个)હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!
泰卢固语 3.5 倍减少 (从 159 到 45个)నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!
泰米尔语 3.3 倍减少 (从 116 到 35个)வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!
Marathi 2.9x fewer tokens (from 96 to 33)नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला!
Hindi 2.9x fewer tokens (from 90 to 31)नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!
Urdu 2.5x fewer tokens (from 82 to 33)ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!
Arabic 2.0x fewer tokens (from 53 to 26)مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!
Persian 1.9x fewer tokens (from 61 to 32)سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!
Russian 1.7x fewer tokens (from 39 to 23)Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!
Korean 1.7x fewer tokens (from 45 to 27)안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
Vietnamese 1.5x fewer tokens (from 46 to 30)Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!
Chinese 1.4x fewer tokens (from 34 to 24)你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你!
Japanese 1.4x fewer tokens (from 37 to 26)こんにちわ、私の名前はGPT−4oです。私は新しいタイプの言語モデルです、初めまして
Turkish 1.3x fewer tokens (from 39 to 30)Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!
Italian 1.2x fewer tokens (from 34 to 28)Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, è un piacere conoscerti!
German 1.2x fewer tokens (from 34 to 29)Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.
Spanish 1.1x fewer tokens (from 29 to 26)Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
Portuguese 1.1x fewer tokens (from 30 to 27)Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!
French 1.1x fewer tokens (from 31 to 28)Bonjour, je m’appelle GPT-4o. Je suis un nouveau type de modèle de langage, c’est un plaisir de vous rencontrer!
English 1.1x fewer tokens (from 27 to 24)Hello, my name is GPT-4o. I’m a new type of language model, it’s nice to meet you!

模型安全和限制

我们设计了 GPT-4o,使其在各种模式下都具备内置的安全功能,这通过过滤训练数据和训练后的行为调整来实现。我们还创建了新的安全系统,为语音输出提供保护措施。我们根据我们的 Preparedness Frameworkvoluntary commitments 对 GPT-4o 进行了评估。对网络安全、CBRN(化学、生物、辐射和核)、说服力和模型自主性的评估显示,GPT-4o 在这些类别中的得分均未超过中等风险。该评估包括在整个模型训练过程中运行一系列自动和人工评估。我们在安全措施实施前后测试了模型,通过自定义微调和提示语更好地发挥模型的能力。

针对 GPT-4o,我们还与70多位 外部专家 在社会心理学、偏见和公平性以及虚假信息等领域进行了广泛的外部红队测试,这些测试旨在识别由新增模式引入或放大的风险。我们利用这些发现构建了安全干预措施,以提高与 GPT-4o 互动的安全性。我们将继续减轻发现的新风险。

我们认识到 GPT-4o 的音频模式带来了一些新的风险。今天我们公开发布文本和图像输入以及文本输出。在接下来的几周和几个月内,我们将致力于技术基础设施、通过训练后的可用性以及发布其他模式所需的安全性。例如,在推出时,音频输出将仅限于选择的一些预设声音,并遵循现有的安全政策。我们将在即将发布的系统卡中分享涵盖 GPT-4o 全套模式的更多详细信息。在对模型进行测试和迭代过程中,我们观察到存在于所有模式中的几个限制,其中一些如下所示。我们非常希望收到反馈,以帮助识别 GPT-4 Turbo 仍然优于 GPT-4o 的任务,从而持续改进模型。

模型可用性

GPT-4o 是我们推动深度学习边界的最新一步,这次的目标是实用性。在过去的两年里,我们在每一层堆栈上都进行了大量效率改进工作。作为这项研究的第一项成果,我们可以更广泛地提供 GPT-4 水平的模型。GPT-4o 的功能将逐步推出(从今天开始扩大红队访问)。
GPT-4o 的文本和图像功能已开始在 ChatGPT 中逐步推出。我们将 GPT-4o 提供给免费用户,同时 Plus 用户可以享受最多高达 5 倍的消息限制提高。我们将在未来几周内,在 ChatGPT Plus 中推出带有 GPT-4o 的新版语音模式 (处于 alpha 版本) 。

开发者现在也可以在 API 中访问 GPT-4o,作为一个文本和视觉模型。与 GPT-4 Turbo 相比,GPT-4o 快两倍,价格减半,并且拥有 5 倍的速率限制。我们计划在未来几周内向一小部分可信任的合作伙伴推出对 GPT-4o 新的音频和视频功能的支持。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/码创造者/article/detail/743454
推荐阅读
相关标签
  

闽ICP备14008679号