赞
踩
大模型主要架构分为三种:prefix Decoder 系、causal Decoder 系、Encoder-Decoder。
Prefix Decoder 系:适合那些需要理解全文上下文并基于此生成下文的任务。输入部分使用双向注意力,输出部分使用单向注意力。
Causal Decoder 系:适合那些需要生成文本并保证生成顺序符合因果关系的任务,如写故事或文章。无论是输入还是输出,都使用单向注意力。
Encoder-Decoder系:适合那些需要理解完整输入序列并生成一个结构化输出的任务。编码器使用双向注意力,解码器使用单向注意力。
Prefix Decoder,也称为非因果解码器,通常用于需要同时考虑整个输入序列的任务,如机器翻译、文本摘要等。在这些任务中,模型需要基于输入序列生成一个输出序列。Prefix Decoder 结构在训练时的特点如下:
损失计算:
由于其翻译或摘要性质,Prefix Decoder在训练时可能更关注于从输入到输出的映射,因此损失函数只针对输出序列计算,而不会考虑输入序列中每个token的生成概率。例如:你正在教小孩将一个法语单词翻译成英语。小孩需要知道整个法语单词是如何翻译成一系列英语单词的,而不是一个接一个地生成英语单词。因此,你将只对最终的翻译结果进行评价,这就是在输出上计算损失的概念。
代表模型:GLM-130B/ChatGLM-6B
Causal Decoder,如GPT系列模型,是为了生成文本而设计的。它们采用自回归的方式进行文本生成,即一个词的生成依赖于它之前的所有词。在训练这类模型时,通常采用交叉熵损失来计算损失函数,具体如下:
损失计算:
由于其生成性质,Causal Decoder在训练时会考虑整个序列,损失函数通常对所有token计算,以确保模型学习到从开始到结束生成每个词的概率分布。想象你正在教一个小孩学习字母的顺序。为了确保小孩能够正确地按顺序说出整个字母表,你会对他说的每个字母进行纠正,这就是在所有token上计算损失的概念。
代表模型:GPT系列
Encoder-Decoder 架构是一种常见的深度学习模型,它由两个主要部分组成:编码器(Encoder)和解码器(Decoder)。编码器负责将输入序列转换成一个内部表示,解码器则根据这个内部表示来生成输出序列。这种架构在机器翻译、文本摘要等任务中非常流行。
Encoder-Decoder适合那些需要理解完整输入序列并生成一个结构化输出的任务。
想象你有一个翻译机,它首先需要理解一种语言(编码器的工作),然后才能将这种语言翻译成另一种语言(解码器的工作)。当你对翻译机说“你好”时,编码器会理解这是中文的问候,然后解码器会生成对应的英文“Hello”。
代表模型:T5,Transformer
Encoder-Decoder:通常使用teacher forcing策略进行训练,即在训练时,Decoder的输入包括真实的前一个输出。
Prefix Decoder和Causal Decoder:通常使用自回归方式进行训练,即在生成当前词时,使用之前生成的所有词。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。