当前位置:   article > 正文

(小伞每日论文速读)2023视觉领域的SOTA!InternImage究竟何方神圣?_dcnv3

dcnv3

声明

本篇文章的相关图片来源于论文:InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions

论文链接如下:https://arxiv.org/pdf/2211.05778.pdf

碍于本人的知识水平所限,本篇文章的总结可能存在不妥之处

如作为参考,请谨慎推理内容的真实性

欢迎各路大佬指出问题!

文章分类

领域定位

领域细分

  • 骨架Backbone

这篇文章得出的结论是什么?

或者说:这篇文章讨论了什么问题?

基于CNN的不同于常规视觉ViTs的新型模型骨架架构InternImage介绍与讨论

这篇文章的创新点在哪里?

  • 算子创新

    • 可变形卷积

    • 具有以输入和任务信息为条件的自适应空间聚集

这篇文章的技术点在哪里?

这篇论文的相关工作及其主线为?

CNN模型及其发展与ViTs

从前有一个老师,给学术搞了的送命题,还以为是送分题

然后老师发现学术停止了思考,于是拉了个群都是大佬一起研究

起初大家用了一堆滤波方法,叫SLAM

再来有个大佬搞了个5层卷积算法叫LeNet,大家疯狂diss CNN无前途。

这时,开尔文的棺材动了

(”物理(计算机视觉)大厦已经落成,所剩只是一些《修饰工作》。“)

有个大佬整了AlexNet,当年的ImageNet直接被屠榜

然后有了VGG,GoogLeNet,MobileNet......

大佬分成3类,一类开始让CNN更快,一部分开始搞各种模块,一部分试图让CNN是man就下100层

后来大家发现CNN在50层就虚了,下不了100层

大家认为CNN无了

然后王境泽说了一句:真香~

ResNet屠榜了

之后大家开始研究ResNet,发现残差真TM香

又搞了一堆RepVGG架构等等,CV领域开始开花结果

然后隔壁的自然语言处理的大佬有个视—语双修的,搞了个ViTs

这下视觉被变形金刚屠榜了

有了一系列诸如swin-transformer之类的玩意儿

视觉界的部分卷积大佬不服,于是深挖CNN极限

整了个ConvNet试图与ViTs抗衡

然后就到了InternImage了

大规模图像模型

——关于大公司在参数领域的一路疯狂内卷

事情是这样的:

受NLP领域的启发

Zhai等人提出了一个新的方法:首次将ViT扩展到20亿个参数

Liu等人:将分层结构的Swin变换器扩大到一个更深更广的模型,有30亿个参数

一些研究人员:通过结合ViTs和CNNs在不同层面的优势,开发了大规模的混合ViTs

BEiT-3进一步探索了基于ViT的更强的表征,并使用多模态预训练的大规模参数。这些方法大大提高了基本视觉任务的上限。

...... 内卷是吧,还用GPU卷

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/93817
推荐阅读
相关标签