三、OpenAI所有模型介绍_openai开源模型

作者：小蓝xlanll | 2024-05-20 16:17:54

踩

openai开源模型

在这里插入图片描述

1. 综述

OpenAI API开发了具有各种能力的模型。可以根据不同的需求选择不同的模型并进行精调。

模型	描述
GPT-4、GPT-4 Turbo	一组从GPT-3.5升级后的模型，能够生成自然语言和代码
GPT-3.5 Turbo	一组从GPT-3.5升级后的模型，能够生成自然语言和代码
DALL.E	能够根据自然语言提示词生成和编辑图片的模型
TTS	一组可以将文本转换成自然语音语言的模型
Whisper	可以将语音转换成文本的模型
Embeddings	一组可以将文件转换成数字形式的模型
Moderation	检测文本是否敏感或安全的审核模型
GPT base	一组没有指令的情况下也能生成自然语言和代码的模型

其它开源模型：Point_E, Whisper, Jukebox, CLIP

gpt-3.5-turbo, gpt-4, gpt-4-turbo-preview是目前最新版本。可以通过调用API，响应中可获得版本信息。

2. GPT-4 GPT-4-Turbo

GPT-4是1个多模态的大语言模型(可以接受文本或图片，然后输出文本)，对于解决相对较困难的问题超过之前所有的模型。并对聊天进行了优化。

模型	描述	上下文令牌
gpt-4-0125-preview	最新的GPT-4模型旨在减少模型无法完成任务的“偷懒”情况，返回最大4096令牌	128,000 tokens
gpt-4-turbo-preview	当前指向gpt-4-0125-preview	128,000 tokens
gpt-4-1106-preview	GPT-4 Turbo模型的主要特征：改进指令跟随，JSON模式，重复输出，并行函数调用等功能。返回最多4,096个输出令牌。这个预览模型不适合应用于生产。	128,000 tokens
gpt-4-vision-preview	除了具有GPT-4 Turbo功能外，GPT-4还具有理解图像的能力。返回最多4,096个输出令牌。这个预览模型不适合应用于生产。	128,000 tokens
gpt-4	当前指向gpt-4-0613	8192tokens
gpt-4-0613	gpt-4从2023年6月13日起的快照，改进了函数调用支持	8192tokens

对于基本的任务，GPT-4和GPT-3.5模型没有显著的区别。然而，在更复杂的推理情况下，GPT-4超过以往的模型

多语言能力：
GPT-4比之前的大语言模型和到2023年为止最优秀的系统都要强(通常有特定的基准训练或手工工程)。在MMLU（Multi-Modal Large-scale Language Understanding）基准测试中，GPT-4不仅在英文方面大大优于现有的模型，而且在其他语言方面也表现出色。MMLU是一套涵盖57个科目的英文多选题

3. GPT-3.5-Turbo

GPT-3.5 Turbo模型可以理解和生成自然语言或代码，并且使用”聊天补全“API对聊天进行了优化，但也能很好地应用于非聊天任务。

模型	描述	上下文令牌
gpt-3.5-turbo-0125	最新的GPT-3.5 Turbo模型在响应请求格式时具有更高的准确性，并修复了导致非英语语言函数调用的文本编码问题的错误。返回最多4,096个输出令牌	16,385 tokens
gpt-3.5-turbo	目前指向gpt-3.5-turbo-0613。gpt-3.5-turbo模型别名将于2月16日自动从gpt-3.5-turbo-0613升级为gpt-3.5-turbo-0125	4096 tokens
gpt-3.5-turbo-1106	GPT-3.5 Turbo模型特点：改进指令跟随，JSON模式，可重复输出，并行函数调用等。返回最多4,096个输出令牌。	16,385 tokens
gpt-3.5-turbo-instruct	类似于GPT-3时代模型的功能。兼容旧的补全端点，但不是聊天补全	4096 tokens

4. DALL·E

DALL·E是一个AI系统，可以通过自然语言的描述创造逼真的图像和艺术。目前提供3个功能：通过提示词生成指定大小的图片；编辑现有图片；生成同用户提供图片的关联图片
DALL·e3可通过图像API与DALL·e2一起使用

模型	描述
dall-e-3	最新的DALL·E型号于2023年11月发布
dall-e-2	上一款DALL·E车型于2022年11月发布。DALL·E的第二次迭代，具有比原始模型更真实，更准确，分辨率提高4倍的图像。

TTS(Text to Speech)

TTS是一种基于AI模型的技术，能够将文本转换成自然流畅的口语音频。我们提供两种不同的模型：ts-1针对实时文本到语音场景进行了优化，ts-1-hd则专注于提升语音质量。这些模型可以与Speech端点在Audio API中配合使用。

模型	描述
tts-1	最新的文本转语音模型，对速度进行了优化
tts-1-hd	最新的文本转语音模型，对质量进行了优化

Whisper

Whisper是一个通用的语音识别模型。它由一个包含多种音频的大数据集训练而成，也是一种多任务模型，能够进行多语言语音识别、语音翻译和语言识别。Whisper v2大型模型目前可通过我们的API使用Whisper -1模型。

当前，开源的Whisper版本和通过API调用的版本没有区别。但调用进行了推理优化的、开放的API，比其它调用方式会更快。

Embeddings

Embedding是文本用数字表示，可用于衡量两段文本之间的相关性。Embedding对于搜索、聚类、推荐、异常检测和分类任务非常有用。

模型	描述
text-embedding-3-large	最强大的英语和非英语任务嵌入模型
text-embedding-3-small	在第二代ada嵌入模型的基础上提高了性能
text-embedding-ada-002	最强大的第二代嵌入模型，取代16个第一代模型

Moderation

内容审核模型（Moderation models）旨在检查内容是否符合OpenAI的使用政策。这些模型提供分类功能，用于查找以下类别的内容：仇恨、仇恨/威胁、自残、色情、色情/未成年人、暴力和暴力/血腥。
内容审核模型可以接受任意大小的输入，该输入会自动被切分为大小为4,096个token的块。当输入超过32,768个token时，会使用截断技术，这可能会罕见地导致一小部分token在审核检查中被省略。

向内容审核端点发送的每个请求的最终结果，显示为每个类别的最大值。例如，如果一个4K token的块在某个类别的得分为0.9901，而另一个块的得分为0.1901，那么API响应中将显示0.9901，因为它更高。

模型	描述	最大tokens
text-moderation-latest	当前指向 text-moderation-007.	32,768
text-moderation-stable	text-moderation-007.	32,768
text-moderation-007	所有类别中最强大的审核模型。	32,768

GPT base

GPT基座模型可以理解并生成自然语言或代码，但不需要按照指令进行训练。这些模型可以替代原有的GPT-3基座模型，并使用传统的补全API。大多数客户应该使用GPT-3.5或GPT-4。

模型	描述	最大tokens
babbage-002	替换GPT-3 ada和babbage基础模型	16,384
davinci-002	替换GPT-3居里和达芬奇基础模型	16,384

模型数据使用

你的数据就是你的数据。
截至2023年3月1日，发送到OpenAI API的数据将不会用于训练或改进OpenAI模型(除非您明确选择加入)。选择加入的一个好处是，随着时间的推移，模型可能会在您的用例中变得更好。
为了帮助识别滥用，API数据可能会保留最多30天，之后将被删除(除非法律另有要求)。对于具有敏感应用程序的受信任客户，可以使用零数据保留。在零数据保留的情况下，请求和响应体不会被持久化到任何日志机制中，只按顺序存在于内存中。
请注意，此数据策略不适用于OpenAI的非api消费者服务，如ChatGPT或DALL·E 实验室。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小蓝xlanll/article/detail/598380