当前位置:   article > 正文

NLP领域中的各种注意力机制_nlp注意力机制

nlp注意力机制

前言

Seq2Seq(Sequence to Sequence)模型:根据给定的序列,通过特定的生成方法生成另一个序列的方法,同时这两个序列可以不等长。

最经典的Encoder-Decoder模型

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw== 编辑

语义编码c:通常指的是编码器对输入序列进行编码得到的固定长度的向量表示。这个向量包含了输入序列的语义信息,可以看做是对整个输入序列的抽象表示,用于为解码器生成输出序列提供信息。语义编码c的长度是固定的,通常是通过对输入序列的编码计算得到的加权平均值或者通过最后一个时间步的隐藏状态得到的,因此在处理长文本或复杂语义信息时可能存在信息损失的问题。

存在的问题:

信息瓶颈问题:在传统的encoder-decoder模型中,编码器将输入序列压缩成一个固定长度的向量表示,这个向量会成为解码器的输入。然而,这种压缩会导致信息的损失,使得模型难以处理长文本或复杂的语义信息。

固定长度输出:解码器将编码器的输出向量解码为一个固定长度的输出序列,这可能会限制模型的表达能力。特别是在需要生成变长输出序列(如文本摘要)的任务中,这种固定长度的输出会导致模型难以捕捉更细节和复杂的信息。

注意力机制的背景

发展

什么是注意力机制?

注意力机制的核心思想就是在一个给定的序列中,通过对序列中各个元素的“注意力”程度进行计算,确定哪些元素对于模型的输出更为重要,对模型的每个输出只关注输入序列的最重要的部位信息。(加权平均,动态赋权

给出一组值向量(values)和一个查询向量(query),attention是一种根据查询向量(query)计算这组值向量(values)的加权和的方法。

 

更详细的来说:总共分为三个阶段:

阶段一:计算相似性,在这里计算相似性的方法有多种:

阶段二:上一阶段的计算的权重进行softmax归一化

阶段三:用归一化的权重与Value加权求和,得到Attention值

Attention 分类

soft attention and hard attention

论文出处:

【wpsshop博客】

推荐阅读
相关标签