赞
踩
位置编码之间的差异不大。
Encoder Block 堆叠L次即为 Transformer Encoder层 。
训练ImageNet21K时是由 Linear+tanh激活函数+Linear,但是迁移到ImageNet1K上或者你自己的数据上时,只有一个Linear。
首先使用一个卷积操作提取出特征,之后再通过ViT模型
window之间不进行信息传递,大大降低运算量。
目的:减少计算量
缺点:窗口之间无法进行信息交互
从上图可以看出,W-MSA模块能够比MSA模块节省大量的计算量。
之后经过下图的变换
经过变换得到 relative position index。
最后经过上图的步骤得到relative position bias。
作者将Transformer中运用的新技术,运用在卷积神经网络上。
认真学习各个网络是非常重要的,把它们的思想理解透彻,才能做到推陈出新。
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。