当前位置:   article > 正文

【论文阅读+翻译】Context-Aware Residual Module for Image Classification_sam image classification

sam image classification

如有侵权,联系删除

【2021ICPR】

Context-Aware Residual Module for Image Classification

用于图像分类的上下文感知残差模块

论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9412503

【摘要】

  注意模块在众多视觉任务中取得了巨大的成功。然而,现有的视觉注意模块普遍考虑单一尺度的特征,不能充分利用其多尺度的语境信息。同时,多尺度空间特征表示在广泛的应用中显示出了其卓越的性能。然而,多尺度特征总是以分层的方式表示,即不可能在粒度水平上了解它们的上下文信息。针对上述问题,本文提出了一种用于图像分类的上下文感知残差模块。它包括一个新颖的多尺度通道注意模块MSCAM,通过考虑自身尺度及其周围场的视觉特征来学习精炼的通道权重;以及一个多尺度空间感知模块MSSAM,进一步捕捉更多的空间信息。这两个模块中的任何一个或两个都可以插入到任何具有短残差连接的基于CNN的骨干图像分类体系中,以获得上下文感知增强特征。在包括CIFAR10、CIFAR100、Tiny-ImageNet和ImageNet在内的公共图像识别数据集上的实验一致表明,我们提出的模块的性能显著优于广泛使用的最先进的方法,如ResNet以及MobileNet和SqueezeeNet的轻量级网络。

关键词:上下文感知;多尺度;残差网络;通道注意;图像分类

【介绍】

  卷积神经网络在许多视觉任务中得到了广泛的应用,并以其最先进的性能在这些任务中取得了重大进展。它成功应用的关键因素之一是通过卷积算子层学习由粗到细的多尺度特征的自然能力。然而,目前大多数CNN架构[1-9]仅以分层的方式表示多尺度特征,并对这些特征一视同仁,这限制了CNN的进一步改进。

  注意机制[10-12]可以根据需要将注意力更多地集中在整个特征空间的特定部分或特定特征上,在现代CNN特别是计算机视觉任务中发挥着重要作用。由于它们有能力区分哪些特征是重要的并强调哪些区域是重要的,这些网络取得了改进的目标识别性能。然而,所有这些方法都只考虑了单尺度视觉知觉领域的注意机制。==通常,在自然场景中,视觉模式是多尺度的,即我们需要从不同的尺度来回答什么和什么地方对于特征地图本身以及它周围的背景信息是重要的。==例如,当一项任务是识别一只猫时,圆形特征是否有意义取决于它是在猫的脸状区域还是杯状区域。

  实际上,多尺度信息在深度学习中得到了广泛的应用。早期的CNN通过从粗到细的卷积算子层学习多尺度特征[1-5]。然后提出了一种基于多分支并行捕获多尺度特征的网络[13-16]。另一种网络提出使用多尺度核来扩大接受域[17-18]。这些不同形式的多尺度表示在视觉识别、语音识别等方面都取得了优异的表现,显示出了强大的识别能力。受到上述工作的启发,本文提出了一种通用的、灵活的多尺度上下文感知残差模块,该模块可以插入到现有的主干图像分类体系中,以获得上下文感知增强特征。具体来说,我们有以下主要贡献:

(1)提出了一种新的多尺度信道注意模块MSCAM,该模块通过考虑信道自身尺度和周围场的视觉特征来学习信道的细化权重。

(2)多尺度空间感知模块MSSAM的设计是为了在粒度级别上进一步捕获其多尺度上下文信息,可以与MSCAM结合,然后通过短残差连接插入任何基于CNN的骨干图像分类体系(单独或组合),以获得上下文感知增强特征。

(3)该模块在多个公共数据集上进行了评估,取得了比广泛使用的最先进的方法(包括ResNet、Xception以及MobileNet和SqueezeeNet等轻量级网络)更好的结果。例如,ResNet50+MSCAM的准确率和参数数量都优于ResNet101。

【相关工作】

A. Network engineering

  网络工程是当前最重要的视觉研究之一,设计良好的主干结构是提高网络性能的基本途径。

  最初,为了设计一个好的主干架构,研究者们尝试设计更深入的CNN以获得更好的性能。具体来说,从AlexNet[1]开始,大量卷积神经网络(CNNs),如VGGNet[2]、GoogLeNet[3]、ResNet[4]、DenseNet[5],试图通过堆叠更多卷积层来提取更丰富的多尺度特征,进一步提高网络性能。

  除了深度,一些CNN,如WideResNet[6]和PyramidNet[7],证明了宽度也是提高CNN性能的一个重要因素。此外,ResNeXt[8]和Xception[9]的最新CNN数据进一步表明,基数性也可以使CNN具有较强的表示能力。CNN体系结构的所有这些进展都显示出一种更有效的多尺度表示的趋势。

B. 注意力机制

  受人类感知的启发,最近的研究试图在各种基于CNN的视觉任务中引入注意机制[10-12]。SENet[10]的开创性工作之一,提出了一种基于通道注意力的挤压-激励策略来细化瓶颈层中的特性。接下来,为了生成注意感知特征,进一步提高CNN的性能,CBAM[11]结合了通道注意和空间注意,而剩余注意网络[12]结合了通道注意、空间注意和混合注意。虽然这些注意模块能够即插即用,有效提高网络性能,但仍然缺少能够逐步细化通道信息的上下文信息和能够充分利用空间特征进行图像分类的多尺度信息。

【提出的方法】

  上下文信息对于通道信息的感知和空间特征的捕捉都非常重要。因此在本节中,我们提出了一种新的多尺度通道注意模块MSCAM来感知多尺度上下文信息,设计了一种多尺度空间感知模块MSSAM来进一步捕捉更多的空间信息,并介绍了如何将这两个模块结合并插入到一个分类网络中。

A. MSCAM&

本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号