赞
踩
Cross-Attention in Transformer Architecture
最近,CrossViT让我所有思考,这种能过够跨膜态的模型构建?浅学一下吧!
目录
2.Cross-attention vs Self-attention
Cross-attention的输入来自不同的序列,Self-attention的输入来自同序列,也就是所谓的输入不同,但是除此之外,基本一致。
具体而言,
self-attention输入则是一个单一的嵌入序列。
Cross-attention将两个相同维度的嵌入序列不对称地组合在一起,而其中一个序列用作查询Q输入,而另一个序列用作键K和值V输入。当然也存在个别情况,在SelfDoc的cross-attention,使用一个序列的查询和值,另一个序列的键。总而言之,QKV是由两序列拼凑的,不单一。
感知器IO是一个通用的跨域架构,可以处理各种输入和输出,广泛使用交叉注意:
这样做的好处是,通常可以处理很长的序列。层次感知器能够处理更长的序列,将它们分解成子序列,然后合并它们。层次感知器也学习位置编码与一个单独的训练步骤,重建的损失。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。