当前位置:   article > 正文

多头注意力比单头好在哪?_多头注意力为什么要多头

多头注意力为什么要多头

多头的本质是多个独立的attention计算,作为一个集成的作用,防止过拟合;从attention is all your need论文中输入序列是完全一样的;相同的Q,K,V,通过线性转换,每个注意力机制函数只负责最终输出序列中一个子空间,即1/8,而且互相独立

在自然语言处理(NLP)的上下文中,注意力通常是指计算基于内容的向量序列凸组合。这意味着权重本身是输入的函数,通常的实现是:

输入序列为x,查询向量q。使用注意力而不是递归神经网络等句子池化的操作符有很多优势,其中最重要的是在高度并行环境(如GPU)中具有很高的计算效率。然而,它们是以表达性为代价的(例如,注意力只能在其输入的凸包中取值)。在Vaswani等人中提出的解决方案是使用“多头注意力”:本质上是并行地运行 个注意力层(“头”),将它们的输出连接起来,并通过仿射变换提供给它。 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/307082
推荐阅读
相关标签
  

闽ICP备14008679号