当前位置:   article > 正文

nlp-Pretraining

nlp-Pretraining

Natural Language Pretraining

Transformer

493eb5fcbfe64b3f841fc09db53b2c2c.png

         传统模型在并行化方面是困难的,引入Transformer允许并行计算。同时使用CNN代替RNN以处理更长的序列。

Self-Attention

        自注意力机制通过计算输入序列中每个位置对其他位置的重要性,实现信息的有效提取和传递。

自注意力机制计算公式

1.输入表示:每个输入表示为一个向量。

2.线性变换:输入向量通过线性变换生成查询(Q)、键(K)和值(V)。

eq?q%5E%7Bi%7D%3DW%5E%7Bq%7Da%5E%7Bi%7D%2Ck%5E%7Bi%7D%3DW%5E%7Bk%7Da%5E%7Bi%7D%2Cv%5E%7Bi%7D%3DW%5E%7Bv%7Da%5E%7Bi%7D

ac2193aac2434ba9a2f5c6c474b2c2f6.png

3.注意力得分:计算Q与K的点积得到注意力得分。

%5Csqrt%7Bd%7D

e6e7dbe0966c4796b669ca5c8d2d3e53.png

拿每个q对每个k做attention,其中d是键向量的维度,用于缩放。

4.归一化:对注意力得分进行softmax归一化,得到权重。

%5Csum_%7Bj%7Dexp%28a_%7B1%2Cj%7D%29

b272942bd7b34c85bc6152d625991688.png

4.加权求和:使用归一化后的权重对值进行加权求和,得到最终输出。

eq?b%5E%7B1%7D%3D%5Csum%20_%7Bi%7D%20%5Chat%7Ba%7D_%7B1%2Ci%7Dv%5E%7Bi%7D%2Cb%5E%7B2%7D%3D%5Csum%20_%7Bi%7D%20%5Chat%7Ba%7D_%7B2%2Ci%7Dv%5E%7Bi%7D

b1,b2,b3,b4可以进行并行计算

da5d08d60d3942c08913da691dba73e3.png

矩阵表示

查询矩阵Q、键矩阵K和值矩阵V分别由所输入向量通过线性变换得到。

57010f42d4af4ab597d5ba48228b48e2.png

 注意力得分矩阵通过查询矩阵Q和键矩阵K的转置相乘计算。

f8f5726e6980453f8f1b8b698afbe5aa.png

dd8cbe34a5bf4f5aaddf096e3a0f54c4.png

最终的输出通过注意力得分矩阵与值矩阵V相乘得到。

39f8bcf3bd624bd9bc830143766c05c3.png

综合矩阵表达形式如下:

ad1a46a6b8874036bbce5dd2e931a082.png

Multi-head Self-Attention

多头自注意力机制通过并行计算多个注意力头,捕捉不同的上下文信息。

(每个头独立计算自己的Q、K和V矩阵,然后进行自注意力计算。最终将各个头的输出拼接在一起,再通过线性变换得到最终结果。)

46b4b3749fe4478da041858306f24f25.png

Position Encoding(位置编码)

 自注意力机制本身没有位置信息,为了让模型识别输入序列的位置顺序,加入了位置编码。

(位置编码是预先定义的向量,表示每个位置的相对或绝对位置。位置编码和输入向量相加,提供位置信息。)

ee436c65bc074946a5d00ddba4d77a29.png

 相关计算公式:

954562980f154b338a5936b1d0b59798.png

 Seq2seq with Attention

         是一种用于处理序列到序列任务的模型架构,常用于机器翻译、文本摘要和对话生成等应用。其主要组成部分包括编码器(Encoder)、解码器(Decoder)和注意力机制。

203a504e17384e14872b6466c6a71016.png

1.编码器:将输入序列转换为一个固定大小的上下文向量。通常由一系列RNN或CNN组成。

2.解码器:将上下文向量转换为目标序列。也是由一系列RNN或CNN组成,在生成序列的每一步会参考上下文向量。

3.注意力机制:允许解码器在生成目标序列的每个步骤时,根据输入序列的不同部分动态地选择信息。具体而言,计算解码器当前隐藏状态和编码器输出之间的相似度(注意力权重),根据这些权重对编码器输出进行加权求和,得到上下文向量。

编码器将输入序列

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/寸_铁/article/detail/903218
推荐阅读