多头注意力比单头好在哪？_多头注意力为什么要多头

作者：花生_TL007 | 2024-03-25 04:52:27

踩

多头注意力为什么要多头

多头的本质是多个独立的attention计算，作为一个集成的作用，防止过拟合；从attention is all your need论文中输入序列是完全一样的；相同的Q,K,V，通过线性转换，每个注意力机制函数只负责最终输出序列中一个子空间，即1/8，而且互相独立；

在自然语言处理(NLP)的上下文中，注意力通常是指计算基于内容的向量序列的凸组合。这意味着权重本身是输入的函数，通常的实现是：

输入序列为x，查询向量q。使用注意力而不是递归神经网络等句子池化的操作符有很多优势，其中最重要的是在高度并行环境(如GPU)中具有很高的计算效率。然而，它们是以表达性为代价的(例如，注意力只能在其输入的凸包中取值)。在Vaswani等人中提出的解决方案是使用“多头注意力”：本质上是并行地运行个注意力层(“头”)，将它们的输出连接起来，并通过仿射变换提供给它。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/花生_TL007/article/detail/307082