赞
踩
github:https://github.com/OpenGVLab/DCNv4
主要解决的问题是提升基于卷积神经网络(ConvNets)的可变形卷积运算(Deformable Convolution,DCN)在计算机视觉应用中的效率和性能。文章指出尽管Deformable Convolution v3 (DCNv3) 结合了稀疏注意力机制与卷积操作,在处理具有局部性、动态采样点以及输入依赖权重的空间特征聚合方面表现出色,但其运行速度较慢且在训练初期收敛速度不如全局注意力机制,这限制了其在视觉主干模型中的广泛应用。
创新点在于提出了Deformable Convolution v4 (DCNv4),它对DCNv3进行了如下改进:
内存访问优化:通过深入分析现有实现发现DCNv3中大量内存访问冗余,作者针对此进行优化,大幅减少了不必要的内存访问,从而显著提升了DCNv4的运行速度。
去除softmax归一化:受到卷积层不受值域约束启发,DCNv4移除了空间聚合时的softmax归一化步骤,因为对于每个位置拥有独立采样窗口的操作来说,softmax的0到1范围限制了表达能力。这一改变增强了DCNv4的动态特性并提高了性能表现。
结果表明,DCNv4不仅在收敛速度上远超DCNv3,而且前向传播速度也提高了超过三倍,使得该操作符成为最快速的核心视觉运算符之一。将DCNv4应用于InternImage模型创建出FlashInternImage后,其速度比原版提升了50%至80%,同时保持了优越的表现力。此外,DCNv4还成功地整合到了包括ConvNeXt、ViT在内的多种现代主干网络结构中,并在图像生成任务中展现出超越基线模型的能力,显示了其作为通用视觉运算符的巨大潜力。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。