赞
踩
本篇文章的相关图片来源于论文:InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions
论文链接如下:https://arxiv.org/pdf/2211.05778.pdf
碍于本人的知识水平所限,本篇文章的总结可能存在不妥之处
如作为参考,请谨慎推理内容的真实性
欢迎各路大佬指出问题!
领域定位
领域细分
骨架Backbone
或者说:这篇文章讨论了什么问题?
基于CNN的不同于常规视觉ViTs的新型模型骨架架构InternImage介绍与讨论
算子创新
可变形卷积
具有以输入和任务信息为条件的自适应空间聚集
CNN模型及其发展与ViTs
从前有一个老师,给学术搞了的送命题,还以为是送分题
然后老师发现学术停止了思考,于是拉了个群都是大佬一起研究
起初大家用了一堆滤波方法,叫SLAM
再来有个大佬搞了个5层卷积算法叫LeNet,大家疯狂diss CNN无前途。
这时,开尔文的棺材动了
(”物理(计算机视觉)大厦已经落成,所剩只是一些《修饰工作》。“)
有个大佬整了AlexNet,当年的ImageNet直接被屠榜
然后有了VGG,GoogLeNet,MobileNet......
大佬分成3类,一类开始让CNN更快,一部分开始搞各种模块,一部分试图让CNN是man就下100层
后来大家发现CNN在50层就虚了,下不了100层
大家认为CNN无了
然后王境泽说了一句:真香~
ResNet屠榜了
之后大家开始研究ResNet,发现残差真TM香
又搞了一堆RepVGG架构等等,CV领域开始开花结果
然后隔壁的自然语言处理的大佬有个视—语双修的,搞了个ViTs
这下视觉被变形金刚屠榜了
有了一系列诸如swin-transformer之类的玩意儿
视觉界的部分卷积大佬不服,于是深挖CNN极限
整了个ConvNet试图与ViTs抗衡
然后就到了InternImage了
大规模图像模型
——关于大公司在参数领域的一路疯狂内卷
事情是这样的:
受NLP领域的启发
Zhai等人提出了一个新的方法:首次将ViT扩展到20亿个参数
Liu等人:将分层结构的Swin变换器扩大到一个更深更广的模型,有30亿个参数
一些研究人员:通过结合ViTs和CNNs在不同层面的优势,开发了大规模的混合ViTs
BEiT-3进一步探索了基于ViT的更强的表征,并使用多模态预训练的大规模参数。这些方法大大提高了基本视觉任务的上限。
...... 内卷是吧,还用GPU卷
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。