当前位置:   article > 正文

ViT-MAE-Masking9.17-9.20_vit中mask 的方法

vit中mask 的方法

ViT(Vision transformer)可以作为目标检测的骨干网络
通过Masking的FLIP是一种简单且高效训练CLIP的方法,在训练过程中随机去除了大量图像补丁
使用标准ViT模型作为Mask R-CNN的骨干,克服了结构不兼容,训练速度慢,内存消耗高,训练公式未知等困难
掩码自编码器(MAE)在概念上的简单扩展到基于视频的时空表征学习。
我们发现我们的MAE方法可以在几乎没有时空归纳偏差的情况下学习强表示(除了补丁和位置嵌入),并且时空不可知的随机掩蔽表现最好
MAE是一种可扩展的计算机视觉自监督学习器
方法很简单:对输入图像随机patch进行mask,并重建缺失的pixels

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/552977
推荐阅读
相关标签
  

闽ICP备14008679号