Attention 注意力机制浅学_注意力机制怎么加到mmdetection中

作者：繁依Fanyi0 | 2024-08-20 04:58:01

踩

注意力机制怎么加到mmdetection中

Attention前言

Attention即权重
翻译为例
在这里插入图片描述
games是游戏，但是综合2022 beijing winter 就翻译为比赛，不不不，应该是冬奥会。

Encoder-Decoder

RNN模型改进传统的神经网络，建立了网络隐层间的时序关联。
在这里插入图片描述
每一时刻的隐层状态St，不仅取决于上一时刻的Xt，还包含上一时刻状态St-1

两个RNN模型的组成，形成Encoder-Decoder模型，下

先对一句话编码，然后再解码，就能实现机器翻译。但是这种不管输入多长，都统一压缩成相同长度编码C的做法。（会导致翻译精度下降）
在这里插入图片描述

下面来看

Attention机制

在这里插入图片描述
以Ct的视角看，在他眼中就是不同输入的注意力，因此被称为attention分布。

通过神经网络数据训练，得到最好的attention权重矩阵，通过attention机制的引入，打破只能利用encoder形成单一向量的限制，让每一时刻，模型都能动态地看到全局信息，将注意力集中到对当前单词翻译的最重要的信息上。
但是RNN的顺序结构很不方便，难以并行运算，效率太低了。
在这里插入图片描述
既然attention数据本身已经对去全部输入进行了打分，RNN中的顺序好像没啥用，还不如简化掉，这就是self-attention机制了。

sele-attention机制

去掉了刚才的输入的箭头，encoder编码阶段，利用attention机制计算每个单词与其他所有单词之间的关联，比如翻译games时，2022、beijing 、winter都较高的attention score。
在这里插入图片描述
利用权重加权表示，再放到一个所谓的前馈神经网络中，得到新的表示，就很好地嵌入了上下文的信息。这样的步骤重复几次效果会更好。

在这里插入图片描述

decoder

decoder也是类似的，不仅要看之前产生的输出，而且还看encoder得到的输出。
换句话说你在别人心中的印象，不仅受制于你今天的打扮，这个encoder。还来自于他以前对你的印象。
在这里插入图片描述
人类的视觉系统就是一种atterntion机制，他将有限的注意力集中在重点信息上，从而节省资源，获得最有效的信息。attention最早在计算机视觉领域应用，但是真正是在NLP领域。
2017年谷歌的transfoemer算法横空出世，引发大家对attention机制的关注。
在这里插入图片描述

2018年BERT和GPT 算法效果出奇的好，进而让attention机制越发地走红。