赞
踩
Transformer及其变体的出现为大模型的研究和实践提供了基础的模型支持,并持续性地在处理复杂序列任务中发挥着关键作用。
自然语言处理(NLP)是通过计算机对自然语言文本进行理解、分析和处理的一系列任务,按照不同方向的常见的可以细分程如下几种任务:
目前自然语言处理任务的发展可以大致分为四个阶段,每个阶段对应不同的范式,分别是特征工程、结构工程、目标工程和提示工程,具体如下:
而我们今天所介绍的Transoformerj属于上述的第三范式阶段,即预训练语言模型阶段
Transformer在学习前,我们需要了解如下三个知识点:模型结构、注意力机制、归一化层
在“Attention is All You Need”这篇论文中,我们可以看到transformer模型框架主要分为两个部分:编码器(Encoder)和解码器(Decoder)部分,其中编码器用于处理输入数据,解码器用于生成数据,整个框架结构和之前的Seq2seq框架一致
注意力机制是一种允许神经网络在生成输出的每一步时都对输入的不同部分赋予不同的“注意力”或“重要性的技术”,例如在一篇文章时,人们会自然而然地将注意力放在标题或者图片等显眼位置;在自然语言处理任务重,注意力机制被广泛用于处理序列数据,该技术可以有效地处理长距离依赖问题。
在上面的介绍中,我们发现注意力机制主要包含三个部分:当前元素(查询)、其他元素(键+值)、关系(权重),用KQV模型表示Attention机制就是,假定输入为Q(查询query),其他序列元素存储在Memory中(其中Memory以键值对K,V存储),那么注意力机制就是Query到一系列键值对(key,value)的映射函数,换句话表达就是注意力机制的主要目标就是将查询与一组键值对进行比较 ,并计算出查询与每个键之间的关键性得分,然后获得最终所有的关系得分。
注意力的输出可以按照以下步骤计算:
在注意力机制的计算中KQV模型中的特殊点在于Q=K=V,文本和文本自己求相似度再和文本本身相乘计算得来、
A
t
t
e
n
t
i
o
n
(
Q
,
K
,
V
)
=
S
o
f
t
m
a
x
(
Q
K
T
d
k
)
⋅
V
\ Attention(Q,K,V) = Softmax( \frac{QK^T}{ \sqrt{d_k}}) \cdot V
Attention(Q,K,V)=Softmax(dk
QKT)⋅V
Transformer模型采用层归一化(Layer Normalization,LN) :
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。