赞
踩
视觉基座模型
还没有基于CNN的大模型
CNN不具有长距离依赖性和自适应空间聚合能力
改进了DCNv2
一方面是模型做大之后效果怎么样,另一方面关注是否解决了长距离依赖性和自适应空间聚合能力。
ViTs虽然通过大量的参数学习大量的数据在很多任务上都超过了CNNs,但是作者认为,如果基于CNN的模型,也拥有类似的操作和架构设计,同等的参数和大量的数据,也能达到类似ViTs的效果,甚至做的更好。
CNNs与ViTs的区别:
本文设计了一个基于CNN的视觉基座模型——InternImage,可以有效的拓展到大量参数和数据上,以3×3窗口的动态稀疏卷积为核心,并且结合transformers中的一系列设计。
本文的主要贡献如下:
传统卷积跟多头自注意力的对比:
DCNv2:
(这一步作者分析了DCNv2的一些性质,相比于传统卷积,DCNv2具有长距离依赖性和自适应空间聚合能力。)
DCNv2的公式: y ( p 0 ) = ∑ k = 1 K w k m k x ( p 0 + p k + Δ p k ) \mathbf{y}\left(p_{0}\right)=\sum_{k=1}^{K} \mathbf{w}_{k} \mathbf{m}_{k} \mathbf{x}\left(p_{0}+p_{k}+\Delta p_{k}\right) y(p0)=∑k=1Kwkmkx(p0+pk+Δpk),其中 x ∈ R C × H × W \mathbf{x} \in \mathbb{R}^{C \times H \times W} x∈RC×H×W代表输入, p 0 p_0 p0代表当前像素, K K K表示采样点的总数, k k k则用于遍历所有采样点。 w k ∈ R C × C \mathbf{w_k} \in \mathbb{R}^{C \times C} wk∈RC×C表示对第k个采样点的投影权重, m k ∈ R \mathbf{m_k} \in \mathbb{R} mk∈R表示对第k个采样点的调制标量,通过Sigmoid函数进行标准化。 p k p_{k} pk表示从预定义网格采样( { ( − 1 , − 1 ) , ( − 1 , 0 ) , … , ( 0 , + 1 ) , … , ( + 1 , + 1 ) } \{(-1,-1),(-1,0), \ldots,(0,+1), \ldots,(+1,+1)\} {(−1,−1),(−1,0),…,(0,+1),…,(+1,+1)})中的第k个位置, Δ p k \Delta p_k Δpk是第k个网格采样位置对应的偏移量。
针对长距离依赖问题,DCNv2的采样偏移 Δ p k \Delta p_k Δpk可以灵活获得长/短距离特征。对于自适应空间聚合问题, ∗ ∗ Δ p k **\Delta p_k ∗∗Δpk和 m k \mathbf{m}_k mk都是可学习的,并且并且受输入 x x x的限制**。
改进DCNv2:
(这一步主要是作者怎么基于DCNv2进行改进,集成了MHSA的一些组件,提出了DCNv3。)
DCNv3公式: y ( p 0 ) = ∑ g = 1 G ∑ k = 1 K w g m g k x g ( p 0 + p k + Δ p g k ) \mathbf{y}\left(p_{0}\right)=\sum_{g=1}^{G} \sum_{k=1}^{K} \mathbf{w}_{g} \mathbf{m}_{g k} \mathbf{x}_{g}\left(p_{0}+p_{k}+\Delta p_{g k}\right) y(p0)=∑g=1G∑k=1Kwgmgkxg(p0+pk+Δpgk),其中G表示分组聚合的数量,对于第g个组, w g ∈ R C × C ′ \mathbf{w}_{g} \in \mathbb{R}^{C \times C'} wg∈RC×C′表示该组的位置无关映射权重,其中 C ′ = C G C'=\frac{C}{G} C′=GC表示组维度。 m g k ∈ R \mathbf{m_{gk}}\in \mathbb{R} mgk∈R表示第g组第k个采样点的调制标量,用沿维度K的Softmax函数归一化。 x g ∈ R C ′ × H × W \mathbf{x}_{g} \in \mathbb{R}^{C^{\prime} \times H \times W} xg∈RC′×H×W表示切片的输入特征图。 Δ p g k \Delta p_{g k} Δpgk为第g组网格采样位置 p k p_{k} pk对应的偏移量。
DCNv3有以下3个优点:
基础块。核心算子为DCNv3,通过一个可分离卷积(一个3×3的深度卷积后接一个线性投影)传递输入特征x来预测采样偏移量和调制标量。采用post-normalization,并遵循跟Transformer相同的设计。
Stem和下采样层。为了获得层次化的特征图,使用Stem层和下采样层将特征图调整到不同的尺度。Stem层放在了第一阶段之前,由2个卷积层、2个LN层和1个GELU层组成,可以让输入分辨率降低4倍。下采样层由步长为2,填充为1的3×3卷积层构成,后接一个LN层。
堆叠规则。InternImage包含以下超参数:
4个阶段的话,就有12个超参数要搜索。为了压缩搜索空间,作者又设计了几条规则: C i = 2 i − 1 C 1 G i = C i / C ′ L 1 = L 2 = L 4 ≤ L 3 Ci=2i−1C1Gi=Ci/C′L1=L2=L4≤L3
缩放规则。考虑两个缩放维度:深度 D ( i . e . , 3 L 1 + L 3 ) D (i.e., 3L_1+L_3) D(i.e.,3L1+L3)和宽度 C 1 C_1 C1,用 α \alpha α、 β \beta β和一个复合因子 ϕ \phi ϕ对这两个维度进行缩放。缩放规则: D ′ = α ϕ D D^{\prime}=\alpha^{\phi} D D′=αϕD和 C 1 ′ = β ϕ C 1 C_{1}^{\prime}=\beta^{\phi} C_{1} C1′=βϕC1,其中 α ≥ 1 , β ≥ 1 , α β 1.99 ≈ 2 \alpha \geq 1, \beta \geq 1 , \alpha \beta^{1.99} \approx 2 α≥1,β≥1,αβ1.99≈2,1.99是InternImage特有的,通过将模型宽度加倍并保持深度不变来计算。通过实验,最优参数是 α = 1.09 \alpha = 1.09 α=1.09和 β = 1.36 \beta = 1.36 β=1.36。
(就简单看了一下图像分类任务)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。