赞
踩
关于我
从2022年末开始接触AIGC,便一直紧跟最近技术与实践落地。期间参与copilot项目研发,落地了多个垂类AIGC大模型应用,熟悉各种AIGC相关技术如Agent,Langchain,chatdoc,向量数据库等。
关于本系列
请你认真看完,了解最佳食用方式。
本系列是结合AI搜索技术所得素材然后整理笔记而成。所有问题答案均由AI提供初稿,而后修缮而成。每个问题回答后面我都会放上原文的链接,方便大家深度阅读。另外有覆盖不到的问题,尽请留言,会在下期更新。
本期问题快浏
6. prefix LM 和 causal LM 区别是什么
8. 比较下prefix Decoder 和 causal Decoder 和 Encoder-Decoder
9. 为何现在的大模型大部分是Decoder only结构?
大型语言模型(LLM)通常指的是包含数百亿(或更多)参数的Transformer语言模型。这些模型在大规模文本数据上进行训练,例如GPT-3、PaLM、Galactica和LLaMA。
大型语言模型的架构要点:
自回归模型(Autoregressive Model):这类模型采用经典的语言模型任务进行预训练。在预测时,给出上文,模型预测下文。最经典的自回归模型是GPT。这些模型适用于文本生成任务,因为它们只能看到上文而无法看到下文。
自编码模型(Autoencoder Model):自编码模型采用句子重建的任务进行预训练。模型通过破坏句子(例如掩码或打乱顺序)来学习将其还原,对应原始Transformer模型的编码器部分。最经典的自编码模型是BERT。与自回归模型不同,自编码模型既可以看到上文信息,也可以看到下文信息,因此适用于自然语言理解的任务,如文本分类和阅读理解。
序列到序列模型(Sequence-to-Sequence Model):这种模型同时使用了原始的编码器和解码器,最经典的模型是T5。序列到序列模型适用于文本摘要、机器翻译等任务,实际上几乎所有的NLP任务都可以通过序列到序列模型解决。
目前现有的大型语言模型基本上都属于自回归模型。整个训练过程通常分为以下几个阶段:
预训练:在这一阶段,大模型的主体已经确定,使用大量数据进行训练,找出其中的共性并压缩为一个模型。目前认为模型的参数量不宜过小,但也不是越大越好。增加数据量并保持中等到大型参数规模是一个平衡效果和成本的较优方案。
微调:大型语言模型中的几乎所有知识都是在预训练中学习的。微调阶段使用相对较少、高质量的数据来继续训练模型,以适应特定场景或问题。
模型对齐:通过引入人工生成的预期效果样例以及使用强化学习(如RLHF)来实现模型和预测的对齐。这有助于符合预期目的,同时遵守人类提供的道德和安全标准。
总之,大型语言模型的架构基于Transformer,经过预训练、微调和模型对齐等阶段,不断优化以适应不同任务和领域的需求.
以下是一些顶尖的大型语言模型及其架构:
ChatGPT:由OpenAI推出,基于GPT-3.5的开源聊天机器人。它可以与用户进行自然语言对话,广泛应用于回答问题、提供信息和生成创意内容等任务。
GPT-4:于2023年3月发布,是多模态预训练大模型,能够接受图像和文本输入,并输出正确的文本回复。实验表明,GPT-4在各种专业测试和学术基准上的表现与人类水平相当。
LaMDA:一系列基于Transformer的模型,专门用于对话。LaMDA拥有多达1370亿个参数,可以在各种话题上进行自由流畅的对话。
PaLM:具有5400亿个参数的语言模型,能够处理复杂的学习和推理任务。它在语言和推理测试中胜过最先进的语言模型和人类。
mT5:多语言T5(mT5)是一个由130亿个参数组成的文本到文本的Transformer模型,涵盖了101种语言。它在跨语言自然语言处理任务上表现出色。
Gopher:DeepMind的语言模型,在科学、人文等专业主题的问题上比现有的大型语言模型更准确。
Chinchilla:使用与Gopher相同的计算预算,但只有700亿个参数。在许多下游评估任务中,它胜过了其他模型。
Sparrow:由DeepMind开发的聊天机器人,旨在正确回答用户的问题,同时减少不安全和不适当回答的风险。
Claude:一个由先进的自然语言处理驱动的基于AI的对话助手,目标是成为有益、无害和诚实的助手。
OPT-IML:基于Meta的OPT模型的预训练语言模型,拥有1750亿个参数。在自然语言任务中表现更好,且具有更低的CO₂排放量。
BlenderBot-3:可以与人交互并接收反馈以提高对话能力的对话代理,基于Meta AI公开提供的OPT-175B语言模型构建。
Llama:拥有7B到65B参数的基础语言模型,在大多数基准测试中优于GPT-3(175B)。
Llama2:包括从70亿到700亿个参数的预训练和优化的大型语言模型集合,其中的Llama 2-Chat是针对对话场景优化的。
Jurassic-1:AI21 Labs推出的开发者平台,为构建应用程序和服务提供最先进的语言模型。提供了最大、最复杂的通用语言模型。
Megatron-Turing NLG:基于Transformer的语言模型,拥有5300亿个参数,超越了之前的最先进模型。
在复杂系统中,当许多微小个体相互作用并形成宏观层面上无法由微观个体解释的特殊现象时,我们称之为“涌现现象”。生活中有许多例子,比如雪花的形成、堵车、动物迁徙等。
大型语言模型,如近年来的巨型预训练模型(例如GPT-3、PaLM-E等),在未直接训练过的任务上表现出惊人的性能,这就是涌现能力。这种能力源于大量的训练数据和高度复杂的网络结构。
大型语言模型的涌现能力在不同类型的任务中表现出不同的特点:
两类被认为具有涌现能力的任务是:
涌现能力与模型规模大小有关。不同类型的任务对模型大小的要求不同。虽然没有唯一的模型大小数值,但通常模型达到一定规模后,涌现能力会显现。
总之,大型语言模型的涌现能力是一个引人瞩目的现象,其背后的原因仍需进一步研究和解释。
BERT(Bidirectional Encoder Representations from Transformers)是一种语言表示模型,它基于Transformer架构构建而成。让我详细介绍一下 BERT 的结构和原理。
模型输入:
网络结构:
Self-Attention Layer:
总结:
BERT(Bidirectional Encoder Representations from Transformers)和GPT(Generative Pre-trained Transformer)是近年来自然语言处理领域中备受关注的两个语言模型。
预训练任务:
网络结构:
上下文处理:
适用领域:
总结起来,BERT适用于文本理解,而GPT则擅长文本生成。这两者都是近年来NLP领域的重要突破,各自在不同任务上都有出色的表现.
关于 Prefix LM 和 Causal LM 的区别
Prefix LM(前缀语言模型):
Causal LM(因果语言模型):
总结一下:
如果对更多细节感兴趣,可以参考一下这些论文:
Prefix LM(前缀语言模型):
Causal LM(因果语言模型):
如何选择:
总结:
Causal Decoder(因果解码器):
Encoder-Decoder(编码器-解码器):
Prefix Decoder(前缀解码器):
下面是一个简单的比较表格:
模型架构 | 代表模型 | 注意力机制 | 是否属于 Decoder-Only |
---|---|---|---|
Causal Decoder | GPT-3、ChatGPT | 纯单向 | 是 |
Encoder-Decoder | Flan-T5 | 输入双向,输出单向 | 否 |
Prefix Decoder | U-PaLM、GLM-130B | 输入双向,输出单向 | 是 |
现在的大型语言模型(LLM)大部分采用Decoder-only结构,而不是Encoder-Decoder结构,有几个原因:
工程方面:随着模型规模的增大,各种工程问题变得更加复杂。例如,对于非Google系的团队,实现pipeline parallelism(流水线并行)变得必要,但像T5这样的模型并不直接支持。此外,一些新技术(如flashattention和relative positional bias)也对Decoder-only模型的性能产生了影响。
Zero-shot表现:Decoder-only模型在zero-shot任务上表现出色。这是一个重要的特性,因为它允许模型在没有任何下游任务标注数据的情况下进行泛化。
缺乏对应的scaling law:与其他架构相比,Decoder-only模型的性能在大规模上没有明确的scaling law。这使得它成为大规模训练的有利选择。
总之,虽然双向的Encoder-Decoder结构在理论上可能更强大,但目前Decoder-only参数已经足够大,而且它在许多方面具有优势。需要注意的是,不同模型可能有不同的架构,但Decoder-only在当前的大型语言模型中占据主导地位。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。