快速了解！AI领域最全的大模型术语！！！_ai 模型后面的 instruct 和 text 什么意思

作者：从前慢现在也慢 | 2024-06-18 06:15:30

踩

ai 模型后面的 instruct 和 text 什么意思

一、模型

Transformer：Transformer 是一种基于自注意力机制（self-attention mechanism）的深度学习模型，最初是为了处理序列到序列（sequence-to-sequence）的任务，比如机器翻译。后续这些模型都是基于Transformer 开发的。
GPT（GPT-3、GPT-3.5、GPT-4）：全称为Generative Pre-training Transformer，是OpenAI开发的一种基于Transformer的大规模自然语言生成模型。GPT模型采用了自监督学习的方式，首先在大量的无标签文本数据上进行预训练，然后在特定任务的数据上进行微调。
BERT：由Google开发的一种预训练语言模型，它在自然语言处理领域取得了很大的成功。BERT有340M和1.1B两个版本，其中1.1B版本有33亿个参数。
RoBERTa：Facebook AI Research开发的一种预训练语言模型，它在自然语言处理领域取得了很大的成功。RoBERTa有125M、250M、500M、1.5B和2.7B五个版本，其中2.7B版本有27亿个参数。
T5：由Google开发的一种预训练语言模型，它在自然语言处理领域取得了很大的成功。T5有11B和22B两个版本，其中22B版本有220亿个参数
XlNet：XLNet是由CMU和Google Brain开发的一种预训练语言模型，它在自然语言处理领域取得了很大的成功。XLNet有两个版本，分别为XLNet-Large和XLNet-Base，其中XLNet-Large有18亿个参数。
InstrucGPT：相对于GPT的改进主要是使用了RLHF（ Reinforcement Learning with human feedback）来微调 GPT-3，这种技术将人类的偏好作为激励信号来微调模型。让模型输出与人类真实意图对齐，符合人类偏好。
ChatGPT：由OpenAI公司在2022年11月30日发布。在同样由OpenAI开发的GPT-3.5模型基础上，ChatGPT通过无监督学习与强化学习技术进行微调，并提供了客户端界面，支持用户通过客户端与模型进行问答交互。ChatGPT不开源，但通过WebUI为用户提供免费的服务。
大模型：有学者称之为“大规模预训练模型”(large pretrained language model），也有学者进一步提出”基础模型”(Foundation Models)的概念。“基础模型”(Foundation Models)的概念：基于自监督学习的模型在学习过程中会体现出来各个不同方面的能力，这些能力为下游的应用提供了动力和理论基础，称这些大模型为“基础模型”。
LLM（大语言模型）：大型语言模型（LLM）是基于大量数据进行预训练的超大型深度学习模型。底层转换器是一组神经网络，这些神经网络由具有自注意力功能的编码器和解码器组成。编码器和解码器从一系列文本中提取含义，并理解其中的单词和短语之间的关系。
Alpaca （羊驼）：Alpaca是斯坦福基于 LLaMA 7B 微调出一个具有 70 亿参数的新模型，他们使用了 Self-Instruct 论文中介绍的技术生成了 52K 条指令数据，同时进行了一些修改，在初步的人类评估中，Alpaca 7B 模型在 Self-Instruct 指令评估上的表现类似于 text-davinci-003（GPT-3.5）模型。
LLaMA：LLaMA（Large Language Model Meta AI）是Meta 在2023年3月，发布并开源了一款新型大模型，其参数量范围从70亿至650亿。值得注意的是，参数量为130亿的LLaMA模型在大部分基准测试中的表现，已超越了参数量高达1750亿的GPT-3。并且，这款模型可以在单块V100 GPU上运行。
Vicuna 俗称「小羊驼」（骆马）：Vicuna 是斯坦福学者联手 CMU、UC 伯克利等，再次推出一个全新模型 ——130 亿参数，俗称「小羊驼」（骆马）。Vicuna 是通过在 ShareGPT 收集的用户共享对话上对 LLaMA 进行微调训练而来，训练成本近 300 美元。
ChatGLM：ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于 General Language Model (GLM) 架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。 ChatGLM-6B 使用了和 ChatGPT 相似的技术，针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。
BLOOM： BigScience（一个围绕研究和创建超大型语言模型的开放协作研讨会）中数百名研究人员合作设计和构建的 176B 参数开源大语言模型，同时，还开源了BLOOM-560M、BLOOM-1.1B、BLOOM-1.7B、BLOOM-3B、BLOOM-7.1B 其他五个参数规模相对较小的模型。BLOOM 是一种 decoder-only 的 Transformer 语言模型，它是在 ROOTS 语料库上训练的，该数据集包含 46 种自然语言和 13 种编程语言（总共 59 种）的数百个数据来源。实验证明 BLOOM 在各种基准测试中都取得了有竞争力的表现，在经过多任务提示微调后取得了更好的结果。BLOOM 的研究旨在针对当前大多数 LLM 由资源丰富的组织开发并且不向公众公开的问题，研制开源 LLM 以促进未来使用 LLM 的研究和应用。

二、名词

Embedding（嵌入）：是一种将离散型变量（如单词、商品、用户等）映射到连续的向量空间中的方法，这种向量通常被称为"embedding vector"或"embedding representation"。这种映射方法可以捕捉到变量之间的相似性和关系。
AIGC（人工智能生成内容）：AIGC（Artificial Intelligence Generated Content / AI-Generated Content）中文译为人工智能生成内容，一般认为是相对于PCG（专业生成内容）、UCG（用户生成内容）而提出的概念。AIGC狭义概念是利用AI自动生成内容的生产方式。广义的AIGC可以看作是像人类一样具备生成创造能力的AI技术，即生成式AI，它可以基于训练数据和生成算法模型，自主生成创造新的文本、图像、音乐、视频、3D交互内容等各种形式的内容和数据，以及包括开启科学新发现、创造新的价值和意义等。
AGI （通用人工智能）：全称为Artificial General Intelligence，也就是通用人工智能，是一种理论性的人工智能形态。它拥有全面的理解、学习和知识应用能力，其智能水平在各方面都与人类相当，甚至有超越之处。这种AI的特点是，它能够将在某一领域学到的知识理解、学习并应用到任何其他领域中。
Diffusion （扩散）：“扩散” 来自一个物理现象：当我们把墨汁滴入水中，墨汁会均匀散开；这个过程一般不能逆转，但是 AI 可以做到。当墨汁刚滴入水中时，我们能区分哪里是墨哪里是水，信息是非常集中的；当墨汁扩散开来，墨和水就难分彼此了，信息是分散的。类比于图片，这个墨汁扩散的过程就是图片逐渐变成噪点的过程：从信息集中的图片变成信息分散、没有信息的噪点图很简单，逆转这个过程就需要 AI 了。
CLIP ： Contrastive Language-Image Pre-Training，大规模预训练图文表征模型，用大量来自网络的图文对数据集，将文本作为图像标签，进行训练。一张图像和它对应的文本描述，希望通过对比学习，模型能够学习到文本-图像对的匹配关系。
Stable Diffusion：Diffusion算法在去噪任意图片后，得到的结果往往是不可预测的。然而，如果我们能让Diffusion算法接受文字提示，以生成我们想要的图片，那将会是一个重大突破。这就是目前AIGC领域的一个热点——AI绘画：用户只需输入文字描述，系统即可自动生成相应的图像。其核心算法——Stable Diffusion，实际上是多模态算法CLIP和图像生成算法Diffusion的结合。在这个过程中，CLIP作为文字提示的输入，进一步影响Diffusion，从而生成我们需要的图片。
Fine-tuning （微调）：微调（Fine-tuning）是一种常用的机器学习方法，主要用于对已经预训练过的模型进行调整，使其适应新的任务。这些预训练模型通常是在大规模的数据集（例如整个互联网的文本）上进行训练，从而学习到数据的基本模式。随后，这些模型可以通过在较小且特定的数据集上进行进一步训练，即微调，来适应特定的任务
Self-Supervised Leaning （自监督学习）：自监督学习是一种有监督学习方法，其特点是从数据本身获取标签进行学习，而无需额外提供标签。相比之下，无监督学习并未进行标签拟合，而是从数据分布的角度构造损失函数。语言模型是自监督学习的典型代表，而聚类则是无监督学习的代表。总的来说，自监督学习的优势在于其可以直接从数据本身构造学习标签，无需额外输入
Self-Attention Mechanism （自注意力机制）：自注意力机制，也被称为自我注意力或转换模型（Transformers）中的注意力机制，是一种专门用于捕获序列数据中各位置间相互依赖关系的技术。
Zero-Shot Learning （零样本学习)：零样本学习是一种特殊的机器学习方法，其主要目标是处理那些在训练阶段未曾出现，但在测试阶段可能会遇到的类别分类问题。这种学习范式常被应用于视觉物体识别、自然语言处理等领域。
AI Alignment (AI 对齐)
在人工智能领域，‘对齐’（Alignment）指的是使人工智能模型的输出与人类的常识、认知、需求以及价值观保持一致。其目标范围广泛，从大的方面来看，是防止人工智能对人类造成伤害；从小的方面来看，是确保生成的结果符合人们的真实需求。例如，OpenAI设立了专门的对齐团队，并开发了名为InstructGPT的模型。这个模型采用了对齐技术，旨在使AI系统的目标与人类的价值观和利益保持一致。
Positional Enconding （位置编码）：位置编码（Positional Encoding）是一种用于标识序列数据（如文本或时间序列）中每个元素位置的技术。由于某些深度学习模型，如Transformer和GPT，本身无法处理输入序列的顺序信息，因此，位置编码的引入就是为了补充这种序列元素的顺序信息
Generative AI ：原本指人工智能生成内容，后也用来指生成式AI行业，海外多用Generative AI
大模型：一般指十亿以上参数的模型，但是这个标准一直在升级。
LLM：大型语言模型( LLM ) 是一种具有大量参数（通常是数十亿个权重或更多）的，对大量未标记文本进行训练而成的模型。
Scaling Laws：随着模型大小、数据集大小和用于训练的计算浮点数的增加，模型的性能会提高。并且为了获得最佳性能，所有三个因素必须同时放大。
Transformer：一种采用自注意力机制的神经网络架构
Attention：计算词语间相关性，为文本中每个词添加上下文关系的方法。
GPT：一系列基于transformer的生成式预训练模型（Generative pre-trained transformer）
SotA：State of the Art 业内最优水平，最先进的技术
word embedding：词嵌入，用一个多维向量来表示词，向量的每个维度都用数字量化
Token：根据事先定义好的编码算法生成，一个token可以是一个单词，也可以是字符块
Position Encoding：用于为Token添加位置信息。
Pre-Training：预训练，使用大量语料进行机器学习，生成基础模型权重。
Fine-Tuning：微调，针对大量数据训练出来的预训练模型，后期采用业务相关数据进一步训练原先模型的相关部分，得到准确度更高的模型，或者更好的泛化。
SFT：监督微调，使用少量高质量数据样本去用监督学习的方式微调预训练大模型（base model），经过指令精调后，LLM能在一些未见过的任务上表现较好的能力，甚至是多语言场景。
Instruction Tuning：指令微调，指的是使用一些自然语言描述的指令形式样本去用监督学习的方式微调预训练大模型（base model），经过指令精调后，LLM能在一些未见过的任务上表现较好的能力，甚至是多语言场景。
LoRA：Low-Rank Adapta-tion ，用于模型微调的一种新技术，在保持模型质量的同时显着减少下游任务的可训练参数数量，广泛应用于LLM和扩散模型微调。
RM：Reward Modeling，人工对同一提示的多条响应进行排序，让奖励模型去预测，比较这个预测值大小与人工排序的一致性。
RL：Reinforcement Learning，强化学习，通过从外部获得激励来校正学习方向从而获得一种自适应的学习能力。
RLHF：使用强化学习的方法，通过人类反馈学习的奖励模型来训练LLM，是一种对齐方法。
Alignment：对齐微调是为了让LLM的输出更符合人类价值观和偏好(helpful, honest, and harmless)，减少虚假、不准确或者避免生成一些有害的信息。但这种对齐微调也会一定程度减弱模型的泛化程度。
Generalization：泛化，模型泛化是指一些模型可以应用到其他场景，通常采用迁移学习、微调等手段实现泛化。
Emergence：涌现，或称创发、突现、呈展、演生，是一种现象。许多小实体相互作用后产生了大实体，而这个大实体展现了组成它的小实体所不具有的特性。研究发现，模型规模达到一定阈值以上后，会在多步算术、大学考试、单词释义等场景的准确性显著提升，称为涌现。
Hallucination：幻觉，生成的内容与提供的源内容不符或没有意义。
reasoning：AI系统根据信息或一组事实得出结论的能力
MoE ：Mixture of experts，一种机器学习方法，其中模型的不同部分处理不同的数据或任务，由路由参数负责调度
Agent：人工智能代理，使用语言模型来选择要采取的一系列操作，Agent适用于具有记忆和对话功能的更复杂场景。解锁 LLM 的能力限制。特殊性在于它可以使用各种外部工具来完成我们给定的操作。
Tool：工具，一般来说就是指函数。用来扩展LLM的功能
Function Call：OpenAI提供的函数调用能力，判断是否要调用某个预定义的函数，如果要调用，从用户输入的文本里提取出函数所需要的函数值。
RAG：检索增强生成，AI和传统检索技术（Retrieval Technology）的有机结合，用AI总结知识检索内容，用于控制输出精确程度和扩展知识。
LangChain：用于开发大语言模型应用的开发框架；
ICL：In-context learning，在不需要重新训练的情况下，通过自然语言指令，并带几个期望输出的样例，LLM就能够学习到这种输入输出关系，新的指令输入后，就能输出期望的输出。ICL使用一种由任务描述和(或)作为示范的几个任务样例构成的自然语言提示。
CoT：Chain-of-Thought，是一种改进的提示策略，旨在提高 LLM 在复杂推理任务中的性能，例如算术推理，常识推理和符号推理。不同于 ICL 中仅使用输入输出对来构造提示，CoT 将可以导出最终输出的中间推理步骤纳入提示中。
Prompt：一段给AI的提示，以文本的形式呈现；
Prompt Engineering：和AI对话的工程技术，通过设计更好的Prompt来引导模型生成更好的回复
Completion：AI根据提示生成的回答或者输出；
Few-shot：提示词中提供例子，让AI更妥善地针对目前的推断回应。
One-shot：提供一个例子，AI针对目前的推断回应。
Zero-shot：不提供范例，AI根据语言模型直接做出回应。
Temperature：控制随机性。降低温度意味着模型会产生更多重复性和确定性的回复。提高温度会导致更多意外或创造性的回复。
Top_p：从模型输出的备选 tokens 里选择概率数值之和达到p的tokens个作为候选采样。
Top_k：从模型输出的备选 tokens 里选择概率高的 k 个作为候选采样。
seed：用于控制随机数生成，通过设置seed，可以进行确定性采样，从而保证相同输入产生相同的输出，常用于测试和复现结果。
likelihood：似然，可以被认为是一个评估可信度的量化指标，如果似然值越高，模型就更有信心会使用它，比如这个例子中。
max_tokens：模型输出的最大长度，用于控制效率、成本。
context_window：上下文窗口是LLM在生成文本时考虑的单词数。更大的上下文窗口将使LLM能够生成更多上下文相关的文本，但也会使训练过程的计算成本更高。
Stop sequences：是一个让模型停止生成token的字符串。这是控制模型响应的长度和结构的另一种方法。例如，可以通过添加“11”作为停止序列来告诉模型生成不超过 10 个项目的列表。
Frequency Penalties：对输出token施加惩罚，该惩罚与该token在响应和提示中已出现的次数成比例。频率惩罚越高，某个词再次出现的可能性就越小。
Presence Penalties：与频率惩罚不同，惩罚对于所有重复标记都是相同的。只要输出文本中已存在的token就会施加惩罚。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/734006