ViT-MAE-Masking9.17-9.20_vit中mask 的方法

作者：Monodyee | 2024-05-08 05:09:39

踩

vit中mask 的方法

ViT（Vision transformer）可以作为目标检测的骨干网络
通过Masking的FLIP是一种简单且高效训练CLIP的方法，在训练过程中随机去除了大量图像补丁
使用标准ViT模型作为Mask R-CNN的骨干，克服了结构不兼容，训练速度慢，内存消耗高，训练公式未知等困难
掩码自编码器(MAE)在概念上的简单扩展到基于视频的时空表征学习。
我们发现我们的MAE方法可以在几乎没有时空归纳偏差的情况下学习强表示(除了补丁和位置嵌入)，并且时空不可知的随机掩蔽表现最好
MAE是一种可扩展的计算机视觉自监督学习器
方法很简单：对输入图像随机patch进行mask，并重建缺失的pixels

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Monodyee/article/detail/552977