赞
踩
Lightweight Real-time Semantic Segmentation Network with Efficient Transformer and CNN
分享的文章将从发现的问题、提出的创新点、创新方法的细节层面和实验总结等方面进行描述。
1、CNN模型具有非常出色的性能,但捕获全局表示的能力仍然不足,这导致了次优结果;
2、基于fcn的模型的接受领域是有限的。因此,不可能学习到远程依赖关系,不利于提取全局语义信息,而全局语义信息对于密集任务,尤其是语义分割任务至关重要;最近的一些方法提出了使用大卷积核、扩张卷积和特征金字塔来扩展感觉场。另一种方法是将自然语言处理(NLP)域中的Non-local集成到FCN结构中,该结构旨在模拟特征图中所有像素的全局交互,但具有高内存和高计算成本。
3、Transformer也引起了计算机视觉研究人员的极大关注,他们将图像处理任务重新定义为序列对序列的预测,但导致局部特征细节恶化;在图像处理领域使用Transformer时,二维图像被切片并作为一维序列输入到模型中,从而打破了局部结构之间的联系,在所有阶段只关注全局上下文。因此,低分辨率特征缺乏详细的定位信息,不能通过直接上采样到全分辨率有效地恢复,导致分割结果粗糙;Transformer相比CNN必须在大量数据集上进行预训练;
提出了一个轻量级的实时语义分割网络,称为LETNet。LETNet以胶囊嵌入的方式有效地将Ushaped CNN与Transformer结合起来,以弥补各自的不足。同时,精心设计的轻量级扩展瓶颈(LDB)模块和特征增强(FE)模块同时对训练产生了积极的影响。在具有挑战性的数据集上进行的大量实验表明,LETNet在准确性和效率平衡方面取得了优异的性能。具体来说,它只包含0.95M参数和13.6G FLOPs,但在cityscape测试集上以120 FPS产生72.8% mIoU,在CamVid测试集上以250 FPS产生70.5% mIoU,使用单个RTX 3090 GPU。
Transformer虽然可以实现全局信息建模,但不能提取精细的空间细节。相反,CNN可以提供一种提取低级视觉线索的方法,可以很好地补偿这种精细的空间细节。因此,一些方法尝试将CNN与Transformer结合起来处理语义分割任务。
1、提出了一个轻量级扩展瓶颈(LDB)来提取重要的语义信息。LDB由扩张卷积和深度可分离卷积组成,在参数和计算量方面实现了极大的减重。
2、提出了一种混合网络LETNet来进行语义分割。LETNet采用最简洁的编码器-解码器结构,将高效的Transformer作为一个胶囊网络来学习全局信息。同时,在跳转连接中加入了Feature Enhancement (FM)模块,用于在恢复分辨率时补充边界细节信息。
如图2所示,LETNet由一个编码器、一个解码器、一个高效变压器和三个长跳接组成。具体来说,编码器和解码器是CNN结构,用于提取局部特征,以更好地表示图像。该变压器可以通过自注意和多层感知器(MLP)结构反映复杂的空间变换和长距离特征依赖,从而获得全局特征表示。三种远程连接的灵感来自于UNet,它将低级空间信息与高级语义信息相结合,以实现高质量的分割。
如图3所示,LDB的结构总体上采用了ResNet[16]的思想,模块设计为一个残差模块,在尽可能少的网络层数的情况下收集更多的特征信息。
在瓶颈处(最上边三层),通过1×1卷积,输入特征的通道数减少了一半。减少通道数量后,参数和计算量大大减少。虽然这样会损失一部分精度,但在这一点上,堆叠两个模块会比弥补损失更有利。同时,由于使用1 × 1卷积,网络深度必须加深才能获得更大的感受野。因此,在1× 1卷积之后,加入3×1和1×3的分解卷积来扩大感觉,以捕捉更大范围的上下文信息。
此外,分解卷积也是基于考虑参数的数量和计算量。同样,在接下来的两个分支结构中,两个分支也都使用了分解卷积,其中一个分支(中间左边分支)负责局部和短距离的特征信息,另一个分支(中间右边分支)使用了atrous卷积,负责在不同的atrous速率下从更大的接受场提取特征信息。
在这两个分支之后的是信道关注(CA),其灵感来自ECANet[14],旨在信道维度上建立注意矩阵,增强特征表达,抑制噪声干扰,因为CNN的大部分特征信息都包含在信道中。然后,将两个低维分支和中间特征融合,输入到下面的1 × 1点卷积中,恢复特征图的通道数与输入特征图的通道数相同。最后,采用信道shuffle策略,避免了信道深度卷积导致的信息独立和信道间无相关性的缺点,促进了不同信道间语义信息的交换。完整的操作如下所示:
在EMHA(高效多头注意力机制)中,首先将Q、K、V分割为s个分段,然后依次执行Qi、Ki、Vi的比例点积注意。之后,我们将得到的O1.....Os进行串联得到整个输出O,实际上它依靠的是群卷积的思想,将大的矩阵分割成小的矩阵,然后计算,最后合并,从而达到减少计算量的目的。最后,利用扩展层恢复通道数。EMHA的架构如图4 (a)所示。
在神经网络中,下层具有较高的分辨率和准确的空间信息(分辨率对应于空间位置),但语义信息较少。相比之下,高层分辨率较低,缺乏空间位置信息,但语义信息丰富。因此,在分割任务中,为了使高级信息中也有足够的空间信息,通常将低级空间信息和高级语义信息结合起来进行高质量的分割。因此,我们使用unet风格的结构来融合相同分辨率的高级和低级特征图。
同时,在三个长连接的过程中,我们提出了一个特征增强(Feature Enhancement, FE)模块来提高特征的表达能力。如图4 (b)所示,从信道维度(右边分支)和空间维度(左边分支)两个维度进行特征依赖建模,并同时对两个维度进行变换,最终融合,从而更有效地将底层信息传递到高层次。操作可以定义为:
σ表示sigmoid函数,γ表示ReLU函数,B表示批量归一化,C是特征图的通道,r表示约简,fAP(·)和fMP(·)分别表示平均池化和最大池化操作。
像素注意(PA)机制根据不同像素位置的特征的重要性学习权重。这意味着每个信道具有相同的权值,但同一信道在不同像素位置的权值不同。像素注意力更关注图像中物体的边缘和纹理,因此添加PA可以促进边缘细节信息的恢复,从而提高分割的性能。操作如图5所示,公式如下:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。