赞
踩
Attention即权重
翻译为例
games是游戏,但是综合2022 beijing winter 就翻译为比赛,不不不,应该是冬奥会。
RNN模型改进传统的神经网络,建立了网络隐层间的时序关联。
每一时刻的隐层状态St,不仅取决于上一时刻的Xt,还包含上一时刻状态St-1
两个RNN模型的组成,形成Encoder-Decoder模型,下
先对一句话编码,然后再解码,就能实现机器翻译。但是这种不管输入多长,都统一压缩成相同长度编码C的做法。(会导致翻译精度下降)
下面来看
以Ct的视角看,在他眼中就是不同输入的注意力,因此被称为attention分布。
通过神经网络数据训练,得到最好的attention权重矩阵,通过attention机制的引入,打破只能利用encoder形成单一向量的限制,让每一时刻,模型都能动态地看到全局信息,将注意力集中到对当前单词翻译的最重要的信息上。
但是RNN的顺序结构很不方便,难以并行运算,效率太低了。
既然attention数据本身已经对去全部输入进行了打分,RNN中的顺序好像没啥用,还不如简化掉,这就是self-attention机制了。
去掉了刚才的输入的箭头,encoder编码阶段,利用attention机制计算每个单词与其他所有单词之间的关联,比如翻译games时,2022、beijing 、winter都较高的attention score。
利用权重加权表示,再放到一个所谓的前馈神经网络中,得到新的表示,就很好地嵌入了上下文的信息。这样的步骤重复几次效果会更好。
decoder也是类似的,不仅要看之前产生的输出,而且还看encoder得到的输出。
换句话说你在别人心中的印象,不仅受制于你今天的打扮,这个encoder。还来自于他以前对你的印象。
人类的视觉系统就是一种atterntion机制,他将有限的注意力集中在重点信息上,从而节省资源,获得最有效的信息。attention最早在计算机视觉领域应用,但是真正是在NLP领域。
2017年谷歌的transfoemer算法横空出世,引发大家对attention机制的关注。
2018年BERT和GPT 算法效果出奇的好,进而让attention机制越发地走红。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。