当前位置:   article > 正文

LLMs之GPT-4 Turbo:11月6日OpenAI重磅更新—在DevDay上宣布的新模型和开发者产品(全新的GPT-4 Turbo、128K上下文窗口、视觉功能)_gpt-4 turbo llm

gpt-4 turbo llm

LLMs之GPT-4 Turbo:11月6日OpenAI重磅更新—在DevDay上宣布的新模型和开发者产品(全新的GPT-4 Turbo、128K上下文窗口、视觉功能)

导读:2023年11月6日,OpenAI重磅发布GPT-4 Turbo,具有128K上下文窗口和更低价格,新的Assistants API,GPT-4 Turbo具备视觉功能,DALL·E 3 API等。

今天,我们分享了数十个新的增强和改进,以及在我们平台的许多部分降低了价格。这些包括:

>> 全新的GPT-4 Turbo模型,更强大,价格更低,支持128K上下文窗口

>> 全新的Assistants API,使开发者更容易构建自己的助手AI应用程序,具有目标并可以调用模型和工具

>> 平台上的新的多模态能力,包括视觉,图像生成(DALL·E 3)和文本转语音(TTS)

>> 我们将从今天下午1点(太平洋时间)开始逐步推出新功能给OpenAI的客户。

了解有关OpenAI DevDay宣布的ChatGPT的更多信息。

目录

一、GPT-4 Turbo具备128K上下文窗口

1.1、函数调用更新

1.2、改进的指令遵循和JSON模式

1.3、可重现的输出和对数概率

1.4、更新的GPT-3.5 Turbo:支持16K上下文窗口

二、助手API、检索和代码解释器

三、API中的新模态

3.1、具备视觉功能的GPT-4 Turbo

3.2、DALL·E 3

3.3、文本转语音(TTS)

3.4、听取语音示例

选择文本

选择语音

四、模型定制

4.1、GPT-4微调实验性访问

4.1、自定义模型

4.1、更低的价格和更高的速率限制

更低的价格

更高的速率限制

五、版权保护

六、Whisper v3和一致性解码器


一、GPT-4 Turbo具备128K上下文窗口

我们于3月发布了GPT-4的第一个版本,并于7月向所有开发者提供了GPT-4。今天,我们推出了该模型的下一代——GPT-4 Turbo的预览版本。

地址Introducing GPTs
官网地址New models and developer products announced at DevDay
视频地址https://www.youtube.com/watch?v=U9mJuUkhUzk

GPT-4 Turbo更强大,信息了解截止到2023年4月的世界事件。它具备128K的上下文窗口,因此可以在单个提示中容纳相当于超过300页的文本。我们还优化了其性能,因此我们能够以比GPT-4便宜3倍的价格提供GPT-4 Turbo的输入代币,并以比GPT-4便宜2倍的价格提供输出代币。

GPT-4 Turbo可供所有付费的开发者尝试,只需通过API中传递gpt-4-1106-preview,我们计划在未来几周内发布稳定的生产就绪模型。

1.1、函数调用更新

函数调用允许您描述您的应用程序或外部API的功能,并使模型智能选择输出一个包含参数的JSON对象来调用这些函数。我们今天发布了几项改进,包括在一条消息中调用多个函数的能力:用户可以发送一个消息请求多个操作,例如“打开车窗并关闭空调”,这以前需要多次与模型进行往返交互。我们还提高了函数调用的准确性:GPT-4 Turbo更有可能返回正确的函数参数。

1.2、改进的指令遵循和JSON模式

GPT-4 Turbo在需要仔细遵循指令的任务上表现比以前的模型更好,例如生成特定格式(例如“始终以XML格式响应”)。它还支持我们的新JSON模式,该模式确保模型将以有效的JSON进行响应。新的API参数response_format使模型能够约束其输出,以生成语法正确的JSON对象。JSON模式对于在函数调用之外生成JSON的开发者非常有用。

1.3、可重现的输出和对数概率

新的seed参数通过使模型在大多数情况下返回一致的完成来实现可重复的输出。这个beta特性对于用例很有用,比如重放调试请求,编写更全面的单元测试,以及通常对模型行为有更高程度的控制。我们在OpenAI内部一直在使用这个功能进行我们自己的单元测试,并发现它非常有价值。我们很期待看到开发者将如何使用它。学习更多的知识。

在未来几周内,我们还将推出返回由GPT-4 Turbo和GPT-3.5 Turbo生成的最有可能的输出令牌的对数概率的功能,这将有助于构建搜索体验中的自动补全等功能。

1.4、更新的GPT-3.5 Turbo:支持16K上下文窗口

除了GPT-4 Turbo之外,我们还发布了GPT-3.5 Turbo的新版本,该版本默认支持16K上下文窗口。新的3.5 Turbo支持改进的指令遵循、JSON模式和并行函数调用。例如,我们的内部评估显示,在生成JSON、XML和YAML等格式的任务方面,格式遵循的改进达到了38%。开发者可以通过调用API中的gpt-3.5-turbo-1106来访问这个新模型。使用gpt-3.5-turbo名称的应用程序将在2023年12月11日自动升级到新模型。旧模型将继续通过API中传递gpt-3.5-turbo-0613的方式访问,直到2024年6月13日。了解更多信息。

二、助手API、检索和代码解释器

今天,我们发布了助手API,这是帮助开发者在其自己的应用程序内构建类似代理的体验的第一步。助手是一种专门设计的人工智能,它有特定的指令,利用额外的知识,可以调用模型和工具来执行任务。新的助手API提供了新的功能,如代码解释器、检索以及函数调用,以处理以前需要自行处理的许多繁重工作,并使您能够构建高质量的AI应用程序。

这个API旨在具有灵活性;用例范围从基于自然语言的数据分析应用程序、编码助手、AI驱动的度假规划器语音控制的DJ、智能视觉画布等等。助手API建立在使我们的新GPTs产品具有自定义指令和工具的相同能力之上,例如代码解释器、检索和函数调用。

这个API引入的一个关键变化是持久且无限长的线程,使开发者可以将线程状态管理交给OpenAI,并绕过上下文窗口约束。使用助手API,您只需将每个新消息添加到现有线程中。

助手还可以根据需要调用新的工具,包括:

代码解释器:在沙箱执行环境中编写和运行Python代码,可以生成图表和图表,并处理具有不同数据和格式的文件。它允许您的助手迭代运行代码以解决具有挑战性的代码和数学问题等问题。

检索:为助手提供来自我们模型之外的知识,如专有领域数据、产品信息或用户提供的文件。这意味着您无需为文档计算和存储嵌入,也无需实施分块搜索算法。助手API根据我们在ChatGPT中构建知识检索的经验优化了使用哪种检索技术。

函数调用:使助手能够调用您定义的的函数,并将函数响应合并到其消息中。

与平台的其他部分一样,传递给OpenAI API的数据和文件永远不会用于训练我们的模型,并且开发者可以在他们认为合适的时候删除数据

您可以在助手Playground中尝试助手API的测试版,无需编写任何代码。

使用助手Playground创建高质量的助手,无需编写代码。

地址https://platform.openai.com/playground?mode=assistant

助手API目前处于测试版,从今天起可供所有开发者使用。请与我们分享您构建的内容(@OpenAI),以及您的反馈,我们将在未来几周内继续进行开发。助手API及其工具的价格信息可在我们的定价页面上获得。

址:https://cdn.openai.com/new-models-and-developer-products-announced-at-devday/assistants-playground.mp4

三、API中的新模态

3.1、具备视觉功能的GPT-4 Turbo

GPT-4 Turbo可以在Chat Completions API中接受图像作为输入,从而支持生成标题、详细分析现实世界的图像,以及阅读带有图表的文档等用例。例如,BeMyEyes使用这项技术来帮助盲人或视力有障碍的人完成日常任务,如识别产品或导航商店。开发者可以通过在API中使用gpt-4-vision-preview来访问这一功能。我们计划将视觉支持作为其稳定版本的一部分推出到主要的GPT-4 Turbo模型中。价格取决于输入图像的大小。例如,将1080×1080像素的图像传递给GPT-4 Turbo的成本为0.00765美元。查看我们的视觉指南。

地址https://platform.openai.com/docs/guides/vision

3.2、DALL·E 3

我们最近向ChatGPT Plus和企业用户推出了DALL·E -3,开发者可以通过我们的图像API将DALL - E -3指定为模型,将DALL·E -3直接集成到他们的应用和产品中。像Snap、Coca-Cola和Shutterstock等公司已经使用DALL·E 3来自动生成图像和设计,用于他们的客户和活动。与之前的DALL·E版本类似,API内置了用于帮助开发者保护其应用程序免受滥用的内容审查。我们提供不同的格式和质量选项,价格从每生成一张图像0.04美元起。查看我们的API入门指南,了解如何开始使用DALL·E 3。

地址https://platform.openai.com/docs/guides/images?context=node

3.3、文本转语音(TTS)

开发者现在可以通过文本转语音API从文本生成高质量的语音。我们的新TTS模型提供六种预设的语音可供选择,以及两个模型变种,TTS -1和TTS -1-hd。TTS专为实时用例优化,而TTS -1-hd专为提供高质量的用例优化。价格从每输入1000个字符0.015美元起。查看我们的TTS指南,了解如何入门。

地址https://platform.openai.com/docs/guides/text-to-speech

3.4、听取语音示例

选择文本

风景

当金色的太阳落在地平线下,在宁静的草地上投下长长的影子时,世界似乎安静了下来,一种平静的感觉笼罩着地球,预示着所有的生物都有一个宁静的夜晚。。

选择语音

四、模型定制

4.1、GPT-4微调实验性访问

我们正在创建一个GPT-4微调的实验性访问计划。初步结果表明,与GPT-3.5微调相比,GPT-4微调需要更多的工作才能实现与基本模型相比的有意义的改进。随着GPT-4微调的质量和安全性的提高,正在积极使用GPT-3.5微调的开发者将被提供选择申请加入GPT-4计划的选项,该选项将出现在其微调控制台中。

4.1、自定义模型

对于需要比微调提供的更多自定义的组织(特别适用于具有超大专有数据集的领域,最少有数十亿个标记),我们还将推出自定义模型计划,为选定的机构提供与专门的OpenAI研究人员合作的机会,以训练专门用于其特定领域的自定义GPT-4。这包括修改模型训练过程的每个步骤,从执行额外的特定领域的预训练,到运行针对特定领域量身定制的RL后训练过程。。机构将独家访问其自定义模型。根据我们现有的企业隐私政策,自定义模型不会提供给其他客户或用于训练其他模型。此外,提供给OpenAI用于训练自定义模型的专有数据不会在任何其他上下文中重复使用。这将是一个非常有限(且昂贵)的计划起步阶段,有兴趣的组织可以在此申请。

4.1、更低的价格和更高的速率限制

更低的价格

我们正在降低平台上的若干价格,以将节省成本传递给开发者(下面的所有价格均以每1,000个标记表示):
>> GPT-4 Turbo输入标记的价格比GPT-4便宜3倍,为0.01美元,输出标记的价格便宜2倍,为0.03美元。
>> GPT-3.5 Turbo输入标记的价格比之前的16K模型便宜3倍,为0.001美元,输出标记的价格便宜2倍,为0.002美元。之前使用GPT-3.5 Turbo 4K的开发者将受益于输入标记降价33%,为0.001美元。这些更低的价格仅适用于今天介绍的新GPT-3.5 Turbo模型。
>> 微调的GPT-3.5 Turbo 4K模型输入标记降低4倍,为0.003美元,输出标记便宜2.7倍,为0.006美元。微调还支持16K上下文,与新的GPT-3.5 Turbo模型的价格相同。这些新价格也适用于微调的gpt-3.5-turbo-0613模型。

更高的速率限制

为帮助您扩展应用程序,我们正在将所有付费GPT-4客户的每分钟标记数限制加倍。您可以在速率限制页面上查看新的速率限制。我们还发布了确定自动速率限制增加的使用层级,因此您知道您的使用限制将如何自动扩展。您现在可以从您的帐户设置中请求提高使用限制。

五、版权保护

OpenAI致力于在我们的系统中提供内置的版权保护,今天,我们将迈出更进一步,引入版权保护——如果您面临版权侵权的法律索赔,我们将介入并支付相关费用,这适用于ChatGPT Enterprise和我们的开发者平台的通用功能。

六、Whisper v3和一致性解码器

我们发布了Whisper large-v3,这是我们的开源自动语音识别模型(ASR)的下一个版本,具有在各种语言中改进性能的特点。我们还计划在不久的将来在API中支持Whisper v3。

我们也开源了一致性解码器,这是稳定扩散VAE解码器的替代品。该解码器改进了与稳定扩散1.0+ VAE兼容的所有图像,在文本,面部和直线方面有显着改进。了解更多有关ChatGPT的OpenAI DevDay公告。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/595419
推荐阅读
相关标签
  

闽ICP备14008679号