赞
踩
Transformer模型彻底抛弃了RNN模型,我们知道循环神经网络本身是一种顺序结构,天然包含了句子之间的位置信息。但是Transformer中用Attention取代了RNN,这就导致了位置信息的缺失,模型就没有办法知道每个单词在句子中的相对位置和绝对位置信息。
I do not like the story of the movie, but I do like the cast.
I do like the story of the movie, but I do not like the cast.
上面两句话所使用的单词完全一样,但是所表达的语意却截然相反,因此有必要在Transformer中加入位置信息,来帮助模型学习这些信息。
位置编码(Positional Encoding)是不需要训练的,它有一套自己的生成方式,具体可以看论文《Attention is All You Need》。我们只需要把位置向量加到原来的输入embedding向量中,就能让Transformer中包含句子的位置信息。
上图来自:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。