当前位置:   article > 正文

DCNv4,高效可变形卷积

dcnv4

github:https://github.com/OpenGVLab/DCNv4

主要解决的问题是提升基于卷积神经网络(ConvNets)的可变形卷积运算(Deformable Convolution,DCN)在计算机视觉应用中的效率和性能。文章指出尽管Deformable Convolution v3 (DCNv3) 结合了稀疏注意力机制与卷积操作,在处理具有局部性、动态采样点以及输入依赖权重的空间特征聚合方面表现出色,但其运行速度较慢且在训练初期收敛速度不如全局注意力机制,这限制了其在视觉主干模型中的广泛应用。

创新点在于提出了Deformable Convolution v4 (DCNv4),它对DCNv3进行了如下改进:

  1. 内存访问优化:通过深入分析现有实现发现DCNv3中大量内存访问冗余,作者针对此进行优化,大幅减少了不必要的内存访问,从而显著提升了DCNv4的运行速度。

  2. 去除softmax归一化:受到卷积层不受值域约束启发,DCNv4移除了空间聚合时的softmax归一化步骤,因为对于每个位置拥有独立采样窗口的操作来说,softmax的0到1范围限制了表达能力。这一改变增强了DCNv4的动态特性并提高了性能表现。

结果表明,DCNv4不仅在收敛速度上远超DCNv3,而且前向传播速度也提高了超过三倍,使得该操作符成为最快速的核心视觉运算符之一。将DCNv4应用于InternImage模型创建出FlashInternImage后,其速度比原版提升了50%至80%,同时保持了优越的表现力。此外,DCNv4还成功地整合到了包括ConvNeXt、ViT在内的多种现代主干网络结构中,并在图像生成任务中展现出超越基线模型的能力,显示了其作为通用视觉运算符的巨大潜力。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/484168
推荐阅读
相关标签
  

闽ICP备14008679号