当前位置:   article > 正文

DeBERTa讲解

deberta

Disentangled attention.

  • 相对位置关系很重要
  • BERT将绝对位置embedding和词embedding相加,不足以区分词在句中位置关系

  • attention得分计算。H是attention层输出,P是相对位置embedding。在每一层都加入一个位置编码。区别于BERT只在输入加上绝对位置编码。 想法推测来源于transformer XL。

  • 第一项内容对内容查询, 二三项分别是位置对内容,内容对位置查询(查表)。第四项位置对位置丢掉。

  • 相对位置表, i 在 j 前太远为 0。 i 在 j 后太远为最大值。
    在这里插入图片描述在这里插入图片描述

  • C->P为例, A ^ \hat A A^ 是每个单词和它周围任一单词的关系(例如对前一个位置得分)。 A [ i , j ] A[i, j] A[i,j]是内容 i 对当前句子位置 j 的得分。所以计算 i - j 然后在 A ^ \hat A A^ 中查表。

  • 本质上是只看单词和当前状态 H H H 然后在周围选取value。

Enhanced mask decoder.

  • query加上绝对位置编码。
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/368896
推荐阅读
相关标签
  

闽ICP备14008679号