当前位置:   article > 正文

Attention 注意力机制浅学_注意力机制怎么加到mmdetection中

注意力机制怎么加到mmdetection中

Attention前言

Attention即权重
翻译为例
在这里插入图片描述
games是游戏,但是综合2022 beijing winter 就翻译为比赛,不不不,应该是冬奥会。
在这里插入图片描述

Encoder-Decoder

RNN模型改进传统的神经网络,建立了网络隐层间的时序关联。
在这里插入图片描述
每一时刻的隐层状态St,不仅取决于上一时刻的Xt,还包含上一时刻状态St-1
在这里插入图片描述
两个RNN模型的组成,形成Encoder-Decoder模型,下
在这里插入图片描述
先对一句话编码,然后再解码,就能实现机器翻译。但是这种不管输入多长,都统一压缩成相同长度编码C的做法。(会导致翻译精度下降)
在这里插入图片描述
在这里插入图片描述
下面来看

Attention机制

在这里插入图片描述
以Ct的视角看,在他眼中就是不同输入的注意力,因此被称为attention分布。
在这里插入图片描述
通过神经网络数据训练,得到最好的attention权重矩阵,通过attention机制的引入,打破只能利用encoder形成单一向量的限制,让每一时刻,模型都能动态地看到全局信息,将注意力集中到对当前单词翻译的最重要的信息上。
但是RNN的顺序结构很不方便,难以并行运算,效率太低了。
在这里插入图片描述
既然attention数据本身已经对去全部输入进行了打分,RNN中的顺序好像没啥用,还不如简化掉,这就是self-attention机制了。

sele-attention机制

去掉了刚才的输入的箭头,encoder编码阶段,利用attention机制计算每个单词与其他所有单词之间的关联,比如翻译games时,2022、beijing 、winter都较高的attention score。
在这里插入图片描述
利用权重加权表示,再放到一个所谓的前馈神经网络中,得到新的表示,就很好地嵌入了上下文的信息。这样的步骤重复几次效果会更好。
在这里插入图片描述

在这里插入图片描述

decoder

decoder也是类似的,不仅要看之前产生的输出,而且还看encoder得到的输出。
换句话说你在别人心中的印象,不仅受制于你今天的打扮,这个encoder。还来自于他以前对你的印象。
在这里插入图片描述
人类的视觉系统就是一种atterntion机制,他将有限的注意力集中在重点信息上,从而节省资源,获得最有效的信息。attention最早在计算机视觉领域应用,但是真正是在NLP领域。
2017年谷歌的transfoemer算法横空出世,引发大家对attention机制的关注。
在这里插入图片描述
在这里插入图片描述
2018年BERT和GPT 算法效果出奇的好,进而让attention机制越发地走红。

总结Attention的三大优点

在这里插入图片描述
在这里插入图片描述

中心思想:通过加权求和,context上下文理解。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/1005310
推荐阅读
  

闽ICP备14008679号