当前位置:   article > 正文

Transformer中为什么需要引入位置编码Positional Encoding(附: keras代码实现)_keras 位置编码

keras 位置编码

Transformer中的位置编码

Transformer模型彻底抛弃了RNN模型,我们知道循环神经网络本身是一种顺序结构,天然包含了句子之间的位置信息。但是Transformer中用Attention取代了RNN,这就导致了位置信息的缺失,模型就没有办法知道每个单词在句子中的相对位置和绝对位置信息。

I do not like the story of the movie, but I do like the cast.

I do like the story of the movie, but I do not like the cast.

上面两句话所使用的单词完全一样,但是所表达的语意却截然相反,因此有必要在Transformer中加入位置信息,来帮助模型学习这些信息。

位置编码(Positional Encoding)是不需要训练的,它有一套自己的生成方式,具体可以看论文《Attention is All You Need》。我们只需要把位置向量加到原来的输入embedding向量中,就能让Transformer中包含句子的位置信息。
在这里插入图片描述
上图来自:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/656718
推荐阅读
相关标签
  

闽ICP备14008679号