赞
踩
attention得分计算。H是attention层输出,P是相对位置embedding。在每一层都加入一个位置编码。区别于BERT只在输入加上绝对位置编码。 想法推测来源于transformer XL。
第一项内容对内容查询, 二三项分别是位置对内容,内容对位置查询(查表)。第四项位置对位置丢掉。
相对位置表, i 在 j 前太远为 0。 i 在 j 后太远为最大值。
C->P为例, A ^ \hat A A^ 是每个单词和它周围任一单词的关系(例如对前一个位置得分)。 A [ i , j ] A[i, j] A[i,j]是内容 i 对当前句子位置 j 的得分。所以计算 i - j 然后在 A ^ \hat A A^ 中查表。
本质上是只看单词和当前状态 H H H 然后在周围选取value。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。