当前位置:   article > 正文

MLM之GPT-4o:GPT-4o(多模态/高智能/2倍速/视觉改进/128K的大窗口)的简介、安装和使用方法、案例应用之详细攻略_gpt4o 窗口长度

gpt4o 窗口长度

MLM之GPT-4o:GPT-4o(多模态/高智能/2倍速/视觉改进/128K的大窗口)的简介、安装和使用方法、案例应用之详细攻略

导读:2024年5月13日,OpenAI重磅发布新旗舰模型GPT-4o,这是一个全新的旗舰模型,可以实时跨越音频、视觉和文本进行推理。

背景痛点:在推出GPT-4o之前,使用语音模式与ChatGPT交流的延迟较长,无法直接观察语调、多个说话者或背景噪音,且无法输出笑声、歌唱或表达情感

解决方案:通过训练一个全新的端到端模型,GPT-4o可以跨越文本、视觉和音频的多模态,将所有输入和输出都由同一个神经网络处理,从而提高了对多模态数据的理解和处理能力。

核心特点:GPT-4o接受任何文本、音频和图像的组合作为输入,并生成任何文本、音频和图像的组合输出。它在语音输入方面的响应速度为232毫秒,平均为320毫秒,与人类对话的响应时间相似

优势:GPT-4o在文本、推理和编码智能方面表现出与GPT-4 Turbo相当的性能水平,同时在多语言、音频和视觉能力方面创下新的高水平

安全性和限制:GPT-4o在设计上跨越多种模态,并通过过滤训练数据和后期训练调整模型行为等技术来确保安全性。对于新添加的模态,如音频,GPT-4o认识到存在各种新的风险,并采取了相应的安全干预措施。

总体而言,GPT-4o代表了深度学习在实际可用性方面的最新进展,提供了更加灵活、高效和安全的多模态智能解决方案。

目录

GPT-4o的简介

0、GPT-4o 2.8k及其特点:高智能/2倍速/视觉改进/128K的大窗口

1、模型能力

2、能力探索

视觉叙事 - 机器人创作障碍

视觉叙事 - 邮递员萨莉

诗意排版与迭代编辑 1

讲座摘要

3、模型评估

3.1、基准测试

Text Evaluation文本评估

Audio ASR performance音频自动语音识别性能

Audio translation performance音频翻译性能

M3Exam Zero-Shot Results  M3考试零-shot结果

Vision understanding evals视觉理解评估

3.2、语言分词

4、模型安全和局限性:过滤训练数据、调整模型行为、红队测试、不断改进安全干预措施

5、模型可用性

GPT-4o的安装和使用方法

T1、官网在线测试

T2、采用API访问GPT-4o

GPT-4o的案例应用


GPT-4o的简介

2024年5月13日,OpenAI重磅发布新旗舰模型GPT-4o,它可以实时跨越音频、视觉和文本进行推理。GPT-4o(“o”代表“omni—全能”)是迈向更加自然的人机交互的一步——它可以接受任何文本音频图像的组合作为输入,并生成任何文本、音频和图像的组合输出。它可以在232毫秒内响应音频输入,平均为320毫秒,这与人类在对话中的反应时间相似。在英语和代码的文本方面,它与GPT-4 Turbo的性能相匹配,对非英语语言的文本有显著改进,同时在API方面更快速、价格降低50%。相比现有模型,GPT-4o在视觉和音频理解方面表现特别优异。

官网地址https://openai.com/index/hello-gpt-4o/

官网视频https://vimeo.com/945586717

0、GPT-4o 2.8k及其特点:高智能/2倍速/视觉改进/128K的大窗口

今天,我们宣布推出我们的新旗舰模型——GPT-4o 2.8k,它可以实时跨越音频、视觉和文本进行推理。我们很高兴地分享,它现在作为一个文本和视觉模型在Chat Completions API 1.7k、Assistants API 552和Batch API 312中可用!它包括:

高智能:GPT-4 Turbo级别的文本、推理和编码智能表现,并在多语言、音频和视觉能力方面创下新的高水平。您可以在我们的开源simple-evals GitHub仓库中找到详细的评估结果 393。

2倍速度:GPT-4o在生成标记方面比GPT-4 Turbo快2倍

价格降低50% :GPT-4o比GPT-4 Turbo便宜50%,无论是输入标记(每百万5美元)还是输出标记(每百万15美元)。

5倍更高的速率限制:GPT-4o的速率限制将是GPT-4 Turbo的5倍,最高可达每分钟1000万标记。(我们将在未来几周逐步提高开发者的使用限制至这个水平。)

视觉改进:GPT-4o在大多数任务中具有改进的视觉能力

改进的非英语语言能力:GPT-4o在非英语语言方面具有改进的能力,并使用了一种新的标记器,比GPT-4 Turbo更有效地标记非英语文本。

GPT-4o有一个128K的上下文窗口,并且截止日期为2023年10月

最后,就模态而言:
>> API中的GPT-4o支持通过视觉能力理解视频(无音频)。具体来说,视频需要转换为帧(每秒2-4帧,可以通过均匀采样或通过关键帧选择算法)输入到模型中。立即查看GPT-4o入门手册 1.3k,了解如何使用视觉功能输入视频内容。
>> API中的GPT-4o目前还不支持音频。我们希望在未来几周将这种模态带给一组受信任的测试者。
>> API中的GPT-4o目前还不支持生成图像。为此,我们仍然推荐使用DALL-E 3 API。
>> 我们建议所有使用GPT-4或GPT-4 Turbo的人考虑切换到GPT-4o!要开始使用,请查看我们的API文档 1.3k,或在Playground 676中尝试(现在支持视觉,并可以跨模型比较输出!)

1、模型能力

在GPT-4o推出之前,您可以使用语音模式与ChatGPT进行交流,平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。为了实现这一点,语音模式是一个由三个独立模型组成的流水线:一个简单的模型将音频转录为文本,GPT-3.5或GPT-4接受文本并输出文本,第三个简单的模型将文本转换回音频。这个过程意味着智能的主要来源GPT-4会丢失很多信息——它不能直接观察到语调、多个说话者或背景噪音,并且无法输出笑声、歌唱或表达情感。

通过GPT-4o,我们训练了一个全新的端到端模型,跨越文本、视觉和音频,这意味着所有的输入和输出都由同一个神经网络处理。由于GPT-4o是我们第一个结合所有这些模态的模型,我们仍然只是初步探索模型的能力和局限性。

2、能力探索

Visual Narratives - Robot Writer's Block

Visual narratives - Sally the mailwoman

Poster creation for the movie 'Detective'

Character design - Geary the robot

Poetic typography with iterative editing 1

Poetic typography with iterative editing 2

Commemorative coin design for GPT-4o

Photo to caricature

Text to font

3Dobject synthesis

Brand placement - logo on coaster

Poetic typography

Multiline rendering - robot texting

Meeting notes with multiple speakers

Lecture summarization

Variable binding - cube stacking

Concrete poetry

视觉叙事 - 机器人创作障碍

视觉叙事 - 邮递员萨莉

电影《侦探》的海报设计

角色设计 - 机器人盖瑞

诗意排版与迭代编辑 1

诗意排版与迭代编辑 2

GPT-4o纪念币设计

照片到漫画的转换

文本到字体的转换

3D物体合成

品牌放置 - 杯垫上的徽标

诗意排版

多行渲染 - 机器人发短信

多人演讲记录

讲座摘要

变量绑定 - 堆叠立方体

具象诗歌

视觉叙事 - 机器人创作障碍

视觉叙事 - 邮递员萨莉

诗意排版与迭代编辑 1

讲座摘要

3、模型评估

根据传统基准测试,GPT-4o在文本、推理和编码智能方面达到了GPT-4 Turbo级别的性能,同时在多语言、音频和视觉能力上设定了新的最高水平

3.1、基准测试

Text Evaluation文本评估

改进的推理 - GPT-4o 在 0-shot COT MMLU(常识问题)上创下了新的高分,达到了 88.7%。所有这些评估都是使用我们的新的简单评估库收集的。

Audio ASR performance音频自动语音识别性能

音频自动语音识别性能 - GPT-4o 在所有语言上都显著提高了对语音识别的性能,特别是对于资源较少的语言。

Audio translation performance音频翻译性能

音频翻译性能 - GPT-4o 在语音翻译方面取得了新的技术水平,并在MLS基准上优于Whisper-v3。

M3Exam Zero-Shot Results  M3考试零-shot结果

M3考试 - M3考试基准既是一个多语言评估,又是一个视觉评估,包括其他国家标准化测试中的多项选择题,有时包括...

Vision understanding evals视觉理解评估

视觉理解评估 - GPT-4o 在视觉感知基准上取得了最先进的性能。所有视觉评估都是 0-shot 的,包括 MMMU、MathVista 和 ChartQA。

3.2、语言分词

这20种语言被选为新分词器在不同语言家族中的压缩的代表。

Gujarati 4.4x fewer tokens (from 145 to 33)

હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!

Telugu 3.5x fewer tokens (from 159 to 45)

నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!

Tamil 3.3x fewer tokens (from 116 to 35)

வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!

Marathi 2.9x fewer tokens (from 96 to 33)

नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला!

Hindi 2.9x fewer tokens (from 90 to 31)

नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!

Urdu 2.5x fewer tokens (from 82 to 33)

ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!

Arabic 2.0x fewer tokens (from 53 to 26)

مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!

Persian 1.9x fewer tokens (from 61 to 32)

سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!

Russian 1.7x fewer tokens (from 39 to 23)

Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!

Korean 1.7x fewer tokens (from 45 to 27)

안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!

Vietnamese 1.5x fewer tokens (from 46 to 30)

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!

Chinese 1.4x fewer tokens (from 34 to 24)

你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你!

Japanese 1.4x fewer tokens (from 37 to 26)

こんにちわ、私の名前はGPT−4oです。私は新しいタイプの言語モデルです、初めまして

Turkish 1.3x fewer tokens (from 39 to 30)

Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!

Italian 1.2x fewer tokens (from 34 to 28)

Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, è un piacere conoscerti!

German 1.2x fewer tokens (from 34 to 29)

Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.

Spanish 1.1x fewer tokens (from 29 to 26)

Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!

Portuguese 1.1x fewer tokens (from 30 to 27)

Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!

French 1.1x fewer tokens (from 31 to 28)

Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!

English 1.1x fewer tokens (from 27 to 24)

Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

4、模型安全和局限性:过滤训练数据调整模型行为红队测试不断改进安全干预措施

GPT-4o通过跨越模态具有内置的安全性,包括过滤训练数据调整模型行为等技术;评估结果显示其在网络安全、CBRN、说服和模型自主性等方面处于中风险以下,并经过广泛的外部红队测试来识别新风险,同时我们也将不断改进安全干预措施以提高与GPT-4o交互的安全性。

GPT-4o通过设计跨越模态具有内置的安全性,通过诸如过滤训练数据和通过训练后调整模型行为等技术。我们还创建了新的安全系统,以提供对语音输出的防范措施。

我们根据我们的准备框架和我们的自愿承诺评估了GPT-4o。我们对网络安全、化学、生物、辐射和核爆炸(CBRN)、说服和模型自主性的评估显示,GPT-4o在这些类别中没有超过中风险。这项评估涉及在模型训练过程中运行一套自动化和人工评估。我们测试了模型经过安全缓解和安全缓解后的版本,使用自定义微调和提示,以更好地引出模型的能力。

GPT-4o还经历了与70多名外部专家进行的广泛外部红队测试,这些专家涉及社会心理学、偏见和公平性以及错误信息等领域,以识别新添加的模态引入或放大的风险。我们利用这些经验来建立我们的安全干预措施,以提高与GPT-4o交互的安全性。我们将继续在发现新风险时进行风险缓解。

我们意识到GPT-4o的音频模态提出了各种新风险。今天,我们将公开发布文本和图像输入以及文本输出。在未来几周和月份,我们将致力于开发技术基础设施、通过训练后的可用性和安全性来发布其他模态。例如,在推出时,音频输出将仅限于一些预设的语音,并遵守我们现有的安全政策。我们将在即将推出的系统卡中分享更多关于GPT-4o各种模态的细节。

通过与模型的测试和迭代,我们观察到模型在所有模态上存在一些限制,其中一些限制如下所示。

我们希望得到反馈,以帮助确定GPT-4 Turbo仍然优于GPT-4o的任务,以便我们继续改进模型。

5、模型可用性

GPT-4o是我们在推动深度学习边界的最新一步,这一次是朝着实际可用性的方向。在过去两年中,我们在整个堆栈的每一层都投入了大量的工作来提高效率。作为这项研究的首个成果,我们能够更广泛地提供一个类似于GPT-4级别的模型。GPT-4o的能力将通过迭代方式推出(从今天开始扩展红队访问)。

GPT-4o的文本和图像功能今天开始在ChatGPT中推出。我们将在免费版本中提供GPT-4o,并提供最多5倍的消息限制给Plus用户。在未来几周内,我们将在ChatGPT Plus中推出带有GPT-4o的语音模式的新版本(alpha版)。

开发者现在还可以通过API访问GPT-4o,作为文本和视觉模型。相比GPT-4 Turbo,GPT-4o的速度提高了2倍,价格降低了一半,速率限制提高了5倍。我们计划在未来几周内向API的一小部分信任合作伙伴推出支持GPT-4o的新音频和视频功能。

GPT-4o的安装和使用方法

持续更新中……

GPT-4o的文本和图像功能已经开始在ChatGPT中推出,用户可以在免费版中使用,Plus用户可以享受高达5倍的消息限制。开发者也可以通过API访问GPT-4o,提供了文本和视觉模型,性能比GPT-4 Turbo更快、价格更低、速率限制更高。

T1、官网在线测试

 注意:如果免费使用,则会在一定时间内存在一定次数的限制。

Chat地址https://chat.openai.com/

playground地址:https://platform.openai.com/playground/chat?mode=chat&model=gpt-4o&models=gpt-3.5-turbo-16k

T2、采用API访问GPT-4o

API地址https://platform.openai.com/docs/models/gpt-4o

  1. from openai import OpenAI
  2. client = OpenAI()
  3. completion = client.chat.completions.create(
  4. model="gpt-4o",
  5. messages=[
  6. {"role": "system", "content": "You are a poetic assistant, skilled in explaining complex programming concepts with creative flair."},
  7. {"role": "user", "content": "Compose a poem that explains the concept of recursion in programming."}
  8. ]
  9. )
  10. print(completion.choices[0].message)
  11. from openai import OpenAI
  12. client = OpenAI()
  13. response = client.chat.completions.create(
  14. model="gpt-4o",
  15. messages=[
  16. {"role": "system", "content": "You are a helpful assistant."},
  17. {"role": "user", "content": "Who won the world series in 2020?"},
  18. {"role": "assistant", "content": "The Los Angeles Dodgers won the World Series in 2020."},
  19. {"role": "user", "content": "Where was it played?"}
  20. ]
  21. )

GPT-4o的案例应用

持续更新中……

GPT-4o可以应用于视觉叙事、角色设计、排版艺术、三维物体合成等多种场景,提供了更加丰富和多样化的功能。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/615479
推荐阅读
相关标签
  

闽ICP备14008679号