当前位置:   article > 正文

Grad-CAM

grad-cam

目录

01 研究背景

02 整体架构

021 Guided-Backpropagation

022 梯度计算

03 实验分析

031 消融实验

04 结论


01 研究背景

解释技术:为了建立对智能系统的信任,并使其有意义地融入我们的日常生活,很明显,我们必须建立“透明”模型,解释们为什么预测他们所预测的。

在以下三个不同阶段都有作用:

当AI<Humans VQA visual question answering

  解释技术引导人们提升原有模型的精度

当AI Humans Image Classification

  解释技术让人们更有信心做出决策

当AI>Humans RL Reinforcement learning

  解释技术教人们如何做更好的选择

该模型是在CAM论文的工作基础上加以创新[1]:

 02 整体架构

        其大致过程如图所示:该方法不会改变模型二点结构,不需要重新训练模型,只需获得最后一个阶段的梯度,并将其反传即可。

 021 Guided-Backpropagation

        梯度反传主要有如下三种方式[2]:

        1.反向直接传播:只传播原始真值大于0的值。

        2.反卷积操作:只传播梯度大于0的值。

        3.引导反向传播:传播原始真值核梯度都大于0的值。

022 梯度计算

可以参考该博主的讲解:Grad-CAM简介_哔哩哔哩_bilibiliGrad-CAM简介_太阳花的小绿豆的博客-CSDN博客_grad-cam

抛去复杂的公式,有个比较灵活的方法如下:

         y1对上一层的导数为W12,四个数字设为a,b,c,d即0101,扁平操作不改变梯度的大小,故只要计算Conv2d操作的梯度变化即可。

        根据链式法则,针对上述a的梯度经过对W1连乘变为0000,不妨设求导后的梯度矩阵为A,A11=0,A21=0,A12=0,A22=0.

        针对上述b的梯度经过对W1连乘变为1012,即A12=1,A13=0,A22=1,A23=2.

        针对上述c的梯度经过对W1连乘变为0000,即A21=0,A22=0,A31=0,A32=0.

        针对上述d的梯度经过对W1连乘变为1012,即A22=1,A23=0,A32=1,A33=2.

最终结果为:

A11=0

A12=0+1=1

A13=0

A21=0+0=0

A22=0+1+0+1=2

A23=2+0=2

A31=0

A32=0+1=1

A33=2.

梯度矩阵构建完毕。

03 实验分析

 实验结果用人为的结果去分析实验性能的好坏。

 实验设置:4种可视化方法,90对图片类别,每对图片9个评分。

 031消融实验

在两个主干网络训练完相同的数据后进行分析:

 采用不同的梯度反传技术的定位精度:

 不同Pooling的产生热图的结果差异:

 04 结论

Grad-CAM 优点:

1.解决了CAM方法需要更改模型架构的机制。

2.相较于其他解释方法减少计算复杂度的同时还能增加模型可解释性。

3.结合了细粒度检测(无法定位图片)和图像定位(无法提高定位分辨率)的优点

Grad-CAM 缺点:

1.识别精度并不是很高        

        2.评价指标需要人为估计

[1] Zhou, Bolei, et al. “Learning deep features for discriminative localization.” Proceedings of the IEEE conference on computer vision and pattern recognition

[2] Springenberg, J., et al. "Striving for Simplicity: The All Convolutional Net." ICLR (workshop track).

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号