Attention机制

作者：weixin_40725706 | 2024-03-26 10:17:51

踩

Attention机制

1. Seq2Seq

在这里插入图片描述

向量C就是输入序列通过Encode得到的序列的编码，代表在某一个向量空间的输入序列的编码。

2. Attention机制

但是由于在解码的时候，都依赖于这一个唯一的C，w1，w2，w3在解码的时候，所关注的部分是没有区别的，所以提出Attention机制，来优化Seq2Seq。

理想情况下，在一位一位进行解码的过程中，C应该有所区别，代表当前解码时，Decoder更关注的是输入序列的哪个位置（这个直观想法非常好）

1） Bahdanau Attention

《NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE》

2）LuongAttention

《Effective Approaches to Attention-based Neural Machine Translation》

计算过程：

3）location-based attention

上两个图是pytorch Seq2Seq with attention 的toturial，use location-based attention。

4）多种Attention：

参考：

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/weixin_40725706/article/detail/316407