赞
踩
2017-2019年计算机视觉顶会文章收录 AAAI2017-2019 CVPR2017-2019 ECCV2018 ICCV2017-2019 ICLR2017-2019 NIPS2017-2019
标题翻译为:引导注意推理网络(显式自引导注意模型)
背景参考
GAIN论文解读 https://blog.csdn.net/qq_24305433/article/details/79785125
凭什么相信你,我的CNN模型?(篇一: CAM和Grad-CAM) https://www.jianshu.com/p/1d7b5c4ecb93
凭什么相信你,我的CNN模型?(篇二:万金油LIME) https://www.jianshu.com/p/b52efa66154e
论文翻译:通天塔论文翻译 http://tongtianta.site/
摘要:对于只有粗糙标签的弱监督学习,可以通过反向传播梯度的办法,获得深层神经网络的视觉解释,如通过获得注意力图的方式。注意力图可用作对象本地化和语义分割等任务的先驱。本文解决三个问题:首次使注意图成为端到端训练的一个明确且自然的组成部分;直接在这些注意图上提供自我指导,通过探索网络本身的监督来改进它们;无缝地弥合使用弱监督和额外监督(如果有的话)之间的差距。语义分割任务的实验证明了方法的有效性。另外,提出的框架不仅可以用于网络的视觉解释,还可以给出反馈,直接指导特定任务。在温和假设下,我们的方法也可以理解为现有弱监督学习者的插件,以提高其泛化性能。
弱监督学习近来备受关注,成为解决计算机视觉中“标记数据稀缺问题“的流行解决方案。例如,仅使用图像级别标签,在卷积神经网络(CNN)上使用反向传播的办法,便可以获得给定输入的注意图。这些注意图能够给出在不同模式和任务下,网络的响应机制。注意图上每个像素的值揭示了输入图像上相同像素对网络最终输出的贡献程度。已经表明,可以从这些注意图中提取本地化和分割信息,而无需额外的标记工作。
现有获得注意力图的办法有缺陷:仅受分类损失的监督,关注地图通常只覆盖感兴趣对象的小型和最具区分性的区域。虽然这些注意图仍然可以作为分割等任务的可靠先验,但是获得”尽可能完整地包含覆盖目标前景对象“的注意图,可以进一步提升性能(本文的目标)。为此,最近的一些作品要么依靠通过迭代擦除步骤[31]或者从多个网络合并注意力图来合并来自网络的多个注意图[11]。 我们设想了一种端到端的框架,可以在训练阶段直接将任务特定的监督应用于注意力图上,而不是被动地利用受过训练的网络注意力。如下图:
作为解释网络决策的有效方式,注意图可以帮助找到训练网络的限制。例如,(要识别船,但网络的注意力在水上而不是船本身)在仅具有图像级对象类标签的对象分类任务中,当前景对象偶然与相同背景对象相关时,我们可能在训练数据中遇到病态偏差。 图1显示了示例类“船”,其中可能存在偏向于作为具有高度相关性的”水“。在这种情况下,训练没有动机将注意力集中在前景上,当测试数据没有相同的相关性时(“水上游艇”),泛化性能可能会受到影响。虽然有人试图通过重新平衡训练数据来消除这种误差,但我们建议将注意图明确地建模为训练的一部分。作为其中一个好处,我们能够明确地控制网络的注意力,并且可以采取人工努力对关注点进行最小限度的监督,而不是重新平衡数据集。虽然可能并不总是清楚如何手动平衡数据集以避免偏差,但引导对感兴趣区域的关注通常很简单。我们还观察到,即使没有额外的监督,我们的显式自引导注意模型已经提高了泛化性能。
重申本文的三个贡献:(a)提出一个方法:在学习弱标签任务的同时,在培训期间直接在注意力图上使用监督; (b)提出”在培训期间自我指导“方案,迫使网络将注意力集中在整体,而不仅仅是最具辨别力的部分;(c)整合直接监督和自我指导,实现无缝扩展--从仅使用弱标签,到在一个共同框架中使用全监督。
本文是弱监督的最新成果:在语义分割实验中,在PASCAL VOC 2012分割基准的阈值和测试上达到(PASCAL 分割的标准指标-平均交叉(mIoU))mIoU 55.3%和56.8%。当在训练中使用有限的像素级监督时,达到mIoU60.5%和62.1%,超过了可比较的现有技术。
过去的工作:由于深层神经网络在很多领域取得了巨大的成功,因此已经提出了各种方法来试图解释这个黑盒子 。视觉注意力是试图解释图像的哪个区域负责网络决策的一种方式。在中,基于误差反向传播 的方法用于可视化预测类的相关区域或隐藏神经元的激活。在文献[3]中,提出了一种反馈CNN架构来捕捉自上而下的关 注机制,可以成功识别任务相关区域。CAM(Class Activation Mapping)(得到一个热力图) 表明,用平均池层替换完全连接的层可以帮助生成突出任务相关区域的 粗糙类激活图。受到自上而下的人类视觉注意模型的启发,[35]提出了一种称为激励反向传播的新反向传播方案,在网 络层次中向下传递自上而下的信号。最近,Grad-CAM (梯度Class Activation Mapping,区别参考https://www.jianshu.com/p/1d7b5c4ecb93)将CAM扩展到各种现成可用架构,以完成图像分类,图像字 幕和VQA等任务,为可能的模型决策提供忠实的视觉解释。
许多方法依赖于网络关注的位置信息。仅从图像级标签中学习,训练好的分类网络的注意图可以用于弱监督对象定位 [17,38],异常定位,场景分割[12]等。然而,只有经过分类损失训练后,注意图才会覆盖感兴趣对象的小型且最具区分 性的区域,这偏离了需要对密集,内部和完整区域进行本地化的需求。为了缓解这一差距,[28]提出随机地将补丁隐藏在训练图像中,迫使网络在隐藏最具判别性的部分时寻找其他相关部分。这种方法可以被认 为是增加训练数据的一种方式,并且它对前景对象的大小(即,对象大小与片的大小)有很强的假设。在[31]中,使用 训练好的网络的注意图擦除原始输入图像的Moset区分区域。重复这个步骤擦除和发现擦除图像的几个步骤,并结合每 个步骤的注意图来获得更完整的注意图。同样,[11]使用双相学习策略,并结合两个网络的注意图来获得感兴趣对象的更完整区域。在第一步中,传统的完全卷积网络(FCN)[16]被训练来找出图像中最具区分性的部分。然后,这些最突出的部分用于超越secound网络的特征映射,以强制它专注于下一个最重要的部分。然而,这些方法要么依赖于一个训练 网络的关注图的组合,以用于不同的擦除步骤或不同网络的关注。单一网络的注意力仍然只位于最具有歧视性的地区。
本文的工作:与尝试解释网络的所有这些方法不同,我们第一次建立端到端模型来直接对这些解释提供监督,特别是网络的关注(对网络模型的关注点进行监督)。我们验证这些监督可以引导网络关注我们期望的区域并使相应的视觉任务受益。我们提出的GAIN模型与以前的方法有根本的不同。由于我们的模型可以通过端到端的方式直接监督网络的注意力,所有其他方法都无法做到这一点,我们设计了不同类型的损失函数来指导网络侧重于整个感兴趣的对象。因此,我们不需要多次擦除或合并注意力图。我们的“单一训练的网络”的注意力,已经更加完善和改进了。
识别数据集中的偏见[30]是网络关注的另一个重要用途。 [24]分析了经过训练的模型的关注图的位置,以发现数据集偏 差,这有助于他们建立一个更好的无偏差数据集。但是,在实际应用中,难以消除数据集的所有偏见,并且耗费时间来 构建新的数据集。如何保证学习网络的泛化能力仍然具有挑战性。与现有方法不同,我们的模型可以直接对网络的关注 提供监督,并指导网络侧重于感兴趣任务的关键领域,从而从根本上解决这一问题,因此对数据集偏差具有强大的适用 性。
注意力图反映了支持网络预测的输入图像上的区域,因此我们提出了引导注意推理网络(GAIN),其目的是监督注意力图。通过这种方式,网络的预测基于我们期望网络关注的领域。我们通过使网络的注意力以端到端的方式进行培训来实现这一目标,这一点尚未被任何其他现有的作品所考虑。将描述GAIN的设计及其针对感兴趣任务的扩展。
第2节描述,经过训练的分类网络的注意图可以用作弱监督语义分割方法的先验。然而,纯粹受到分类损失的监督, 注意图通常只覆盖感兴趣对象的小区域和最具区分性的区域。这些注意力图可以作为分割的可靠先验,但更完整的注意力图肯定有助于改善整体表现。
为了解决注意图通常只覆盖感兴趣对象的小区域和最具区分性的区域的问题,GAIN以正则化引导方式直接在注意力图上形成约束。如图2所示,GAIN有两个网络流,分类流和注意挖掘,它们彼此共享参数。来自分类流的约束旨在找出有助于识别类的区域。而注意挖掘流确保所有可能有助于分类决策的区域都将纳入到网络的关注中。通过这种方式,关注地图变得更完整,准确并针对分割任务进行量身定制。这里的关键是我们可以通过两种损失函数联合生成和训练注意图。
基于Grad-CAM [24]的基本框架,我们简化了注意图的生成。可以在每个推理中获得与输入样本相对应的注意图,从而在训练统计中变得可训练。在分类流中,对于给定的图像I,让成为第l层中单元k的激活。对于来自地面实况标签的每个类别c,我们计算对应于类别c的分数的梯度,相对于的激活图。这些反馈的梯度将通过一个全局平均池化层[14],以获得如公式(1)中定义的神经元重要性权重。指全局平均池化层运算。
在这里,我们不通过反向传播获得后更新网络参数。由于代表支持c类预测的激活图的重要性,因此我们使用权重矩阵作为核,并在激活图矩阵上应用2D卷积以集成所有激活图,然后进行ReLU操作以获得注意图如公式(2)。注意图现在可以”在线训练“(实时训练?),的约束将影响网络的学习:
其中l(小写L)是来自最后卷积层的表示,其特征具有在高级语义和详细空间信息之间的最佳折衷[26]。注意图具有与卷积特征图相同的大小(在VGG中是14*14)。
然后,我们使用可训练注意图生成一个软掩膜应用于原始输入图像,使用方程式获得,见公式(3)。表示超出网络当前关注类别c的区域。
其中⊙表示单元乘法。 是基于阈值操作的屏蔽功能。为了使其可导,我们使用Sigmoid函数作为方程中的近似值,见公式(4)。
其中σ是其元素都等于σ的阈值矩阵。 ω是尺度参数,确保当大于σ时大约等于1,否则为0。(ij是啥,没找到,文章没提)
然后将(超出网络当前关注类别c的区域)用作数据挖掘流的输入以获得类别预测分数。由于我们的目标是引导网络关注所有感兴趣的类别,我们正在强制尽可能少地包含属于目标类的特征,即注意图区域上的高响应区域之外的区域应该包括理想情况下不是一个可以触发网络识别c类对象的像素。从损失函数的角度来看,它试图最小化对c类的预测分数。为了达到这个目的,我们设计了称为注意最小化损失的损失函数。 公式(5)。
表示c类的的预测分数。 n是此图像的基础真值类标签(ground-truth class labels)的数量.
正如方程(6),我们最终的自我指导损失是分类损失和注意最小化损失的总和。
用于多标签和多类分类,我们在这里使用多标签软边缘损失。替代损失函数可用于特定任务。 α是加权参数。我们在所有的实验中都使用。
在自我指导损失的指导下,网络学习扩大输入图像的焦点区域,有助于尽可能识别目标类别,从而使注意图适合于感兴趣的任务如语义分割。我们在第四部分展示了GAIN的自我指导的效用。
除了让网络自己探索关注地图的指导?之外,我们还可以通过使用少量额外的监督来控制注意地图学习过程来告诉网络中他们应该关注的图像的哪些部分,以便为感兴趣的任务做定制。基于这种对关注图进行额外监督的想法,我们引入GAIN的扩展:GAINext,它可以在我们的弱监督学习框架中无缝集成额外的监督。我们演示如何使用自导GAIN框架来改进弱监督语义分割任务,如第4节所示。此外,我们还可以应用GAINext指导网络学习对数据集偏差具有鲁棒性的特征,并在测试数据和训练数据来自非常不同的分布时提高其泛化性。
继3.1节,我们仍然使用弱监督语义分割任务作为示例应用程序来解释GAINext。GAINext在训练阶段生成可训练关注图的方式与自引导GAIN相同。除了和,我们还根据给定的外部监督设计了另一种损失。我们将定义为:
表示额外的监督,例如,我们的例子中的像素级分割掩码。
由于生成像素级分割图非常耗时,因此我们更感兴趣的是发现只使用非常少量的外部监控数据的好处,这完全符合图3中所示的GAINext框架,我们添加了外部流,并且这三个流共享所有参数。外部流的输入图像包括图像级标签和像素级分割掩码。通过外部流,只能使用非常少量的像素级标签,以增加GAINext的性能(在我们用GAINext进行的实验中,训练中使用的总标签中只有1〜10%是像素级标签)。分类流的输入包括仅具有图像级标签的训练集中的所有图像。
GAINext的最终损失函数定义如下:
分类流和注意挖掘在第3.1节定义。而ω是权重参数,取决于我们希望在额外的监督下多加强调(我们在实验中使用)。
GAINext也可以很容易地修改来完成其他任务。一旦我们得到与网络最终输出相对应的激活图,我们就可以使用损失来指导网络将重点放在对感兴趣任务关键的区域。在第5部分,我们展示了这种修改的例子,以指导网络学习对数据集偏倚强健的特征并提高其泛化能力。在这种情况下,额外的监督就是边界框(bounding boxes)的形式。
为了验证在 3.1和3.2定义的GAIN的有效性,我们使用弱监督语义分割任务作为示例应用程序。此任务的目标是将每个像素分为 不同的类别。在弱监督环境下,最近的大多数方法[11,12,31]主要依赖于仅由图像级标签训练的模型生成的定位线索,并考虑其他约束(如对象边界)来训练分割网络。因此,定位线索的质量是这些方法表现的关键。
与最先进的方法[16,24,38]产生的注意力图相比,GAIN只引导网络集中在”代表感兴趣等级“的整个区域,这可以改善弱监督分割的表现。为了验证这一点,我们将我们的注意力映射到SEC [12],这是最先进的弱监督语义分割方法之一(Seed,Expand和Constrain)。SEC 定义了三个关键约束:种子,扩展和约束,其中种子是为主分割网络N提供定位线索C的模块,使得N的分割结果被监督以匹配C.注意,SEC不是GAIN的依赖。它用于评估由GAIN带来的改进。原则上SEC可以被这个应用程序的其他分割框架所取代。根据SEC [12],我们的定位线索是通过对由GAIN生成的注意力图应用阈值操作获得的: 对于每个每类注意图,选择具有”大于最大分数20%"的所有像素。我们使用[15](net in net)获得背景线索,然后训练SEC模型以使用相同的推理过程生成分割结果,以及CRF参数[13]。
数据集和评估指标。我们在PASCAL VOC 2012图像分割基准[6]上评估我们的结果,其中有21个语义类,包括背景。图像分为三组:训练,验证和测试(分别表示为train,val和test),分别为1464,1449和1456图像。遵循常用设置[4,12],我们使用[8](论文:逆检测器的语义轮廓)提供的增强训练集。由此产生的训练集有10582个弱注释图像,我们用它来训练我们的模型。我们将我们的方法与验证和测试集上的其他方法进行比较。测试集的地面实况(ground truth)分割掩模并不公开,因此我们使用官方的PASCAL VOC评估服务器来获取定量结果。对于评估指标,我们使用PASCAL VOC 2012分割的标准指标-平均交叉(mean intersection-over-union)(mIoU)。
实施细节。我们使用从ImageNet [5]预训练的VGG [25]作为GAIN的基本网络来生成注意力图。我们使用Pytorch [1]来实现我们的模型。我们将批量batch大小设置为1,并将学习速率设置为。我们使用随机梯度下降(SGD)来训练网络,并在35个时期后终止。对于弱监督分割框架,在SEC [12]设置之后,我们使用DeepLab-CRFLargeFOV [4],这是VGG网络的稍微修改版本[27]。用Caffe [10]实现,DeepLab-CRFLargeFOV [4]采用尺寸为321×321的输入,并产生大小为41×41的分割掩模。我们的训练程序与现阶段的[12](论文:弱监督图像分割的三个原则)相同。我们以批量大小15运行8000次迭代的SGD。初始学习率是,每2000次迭代它就会减少10倍。
(1)我们将我们的方法与其他最先进的弱监督语义分割方法与图像级标签进行比较,在[31]之后,我们将它们分成两类。对于纯粹使用图像级标签的方法,我们将我们的基于GAIN的SEC(在表中表示为GAIN)与SEC [12],AE-PSL [31],TPL [11],STC[32]等。
(2)对于另一组方法,隐式使用像素级监督意味着虽然这些方法仅使用图像级标签训练分割网络,但它们使用一些额外的技术,这些技术是使用像素级监督进行训练的。我们基于GAINext的SEC(在表格中表示为GAINext)位于此设置中,因为它使用非常少量的像素级标签来进一步改善网络的注意力图,并且在训练时不依赖任何像素级标签SEC分割网络。其他包括AF-MCG [38],TransferNet [9]和MIL-seg [20]在内的方法也包括在内以作比较。表1显示了PASCAL VOC 2012分段值的结果。设置和分割测。
(1)在纯粹使用图像级标签的方法中,我们的基于GAIN的SEC在这两组中的mIoU上达到最佳性能,其性能优于SEC [12]基 准的4.6%和5.1%,达到55.3%和56.8%。此外,增益优于AE-PSL [31] 0.3%和1.1%,优于TPL [11] 2.2%和3.0%。这两种方法也被提出来覆盖注意力图中感兴趣类别的更多区域。然而,它们要么依赖于一个训练网络的注意图组合来进行不同的擦除步骤[31]或者来自不同网络的注意图[11]。与他们相比,我们的GAIN使得注意图可训练并使用损失来指导注意力图以涵盖整个兴趣类别。如[11,31]中提出的,GAIN的设计已经使单个网络的注意图覆盖更多属于感兴趣类别的区域,而不需要执行迭代擦除或结合来自不同网络的注意图。
(2)通过隐式使用像素级监督,当我们使用200个随机选择的像素级标签(整个数据集的2%数据)作为像素级监督时,基于 GAINext的SEC在mIoU中达到58.3%和59.6%。它已经比AF-MCG的性能提高了4%和4.1%[38],它依靠MCG发生器[2], 以全监督的方式对PASCAL VOC进行培训。当像素级监控增加到GAINext的1464张图像时,性能跳跃到60.5%和 62.1%,这对于具有竞争力的基准测试来说是一项新的挑战性任务。图4显示了语义分割的一些定性实例结果(qualitative example results),表明基于 GAIN的方法有助于根据注意力图的改进发现更加完整和准确的感兴趣类别区域。具体而言,基于GAIN的方法会发现感兴趣对象的其他部分或基线无法找到的新实例。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。