赞
踩
今天要讨论的是以下三种模型结构:
Decoder-only模型:例如,GPT-3,单向上下文嵌入,在生成文本时一次生成一个token
Encoder-only模型:例如,BERT,利用双向上下文注意力生成embeding
Encoder-decoder模型:例如,T5,利用双向上下文编码,利用单向上下文生成文本
最终结果就是将token序列映射为一个Embedding向量
其中:
L :代表文本长度
d:代表embeding向量的维度
自回归语言模型预测是一个条件分布:即根据1,2,。。。i-1个词语,去预测第1个词语是什么
公式为: =
那格局最大似然原理(通俗点讲就是,找到一个参数,是的概率最大),定义以下负对数似然目标函数:
Decoder-only模型,它会产生(单向)上下文嵌入,更适合文本生成任务
Encoder-only模型,他是双向上下文嵌入,更适合分类任务
BERT的目标函数,它包含以下两个部分:
其中有两个特殊的token:
基本思想是通过加噪然后预测来进行训练:
[the,[MASK],ate,[MASK],cheese] ⇒ [the,mouse,ate,the,cheese]
需要模型把[MASK]位置的词语给预测出来
噪声函数的定义:
RoBERTa对BERT进行了以下改进:
BART (Lewis et al. 2019)是基于Transformer的编码器-解码器模型。
基于BERT的实验,最终模型进行以下了变换:
最后,通过微调,BART在分类和生成任务上都展示了强大的效果。
训练过程:给定一段文本,在随机位置将其分割为输入和输出:
T= {the,mouse ,ate ,the ,cheese}
X1 = {the} Y1 = {mouse,ate,the,cheese}
X2 = {the,mouse} Y2= {ate,the,cheese}
X3 = {the ,mouse,ate} Y3= {the,cheese}
差异:
引入了一阶动量和二阶动量的概念
参数跟新过程:
说明:
学习率
一阶指数移动平滑加权
二阶指数移动平滑加权
一阶指数移动加权衰减系数
二阶指数皮冻加权衰减系数
内存占用:
之前SGD训练时只需要保存 (,) 是模型参数的2倍
现在Adam训练要保存(,,,) 是模型参数的4倍
简单理解就是:
训练的时候用F16,跟新模型参数的时候用F32
以GPT-3为例,使用的参数如下:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。