当前位置:   article > 正文

[2021]Cross-modality Discrepant Interaction Network for RGB-D Salient Object Detection

cross-modality discrepant interaction network for rgb-d salient object detec

目录

一、动机

二、相关工作

三、跨模态差异交互网络(CDINet)

3.1. RGB 诱导的细节增强(RDE) 模块:

3.2. 深度诱导语义增强(DSE)模块:

3.3. 密集解码重建(DDR)模块:


一、动机

低级 RGB 特征可以帮助深度特征区分同一深度级别的不同对象实例,而高级深度特征可以进一步丰富 RGB 语义并抑制背景干扰。 为了充分发挥每种模态的优势,同时利用另一种模态来弥补自身,避免造成干扰。

解决特征编码器中的跨模态交互问题

提出了一种跨模态差异交互网络,根据不同层的特征表示,在编码器阶段对两种模态的依赖性进行差异建模,有选择地利用RGB特征补充深度分支的细节,并将深度特征转移到RGB模态中,以丰富语义表示。

(两种模式各有长处,根据它们的作用设计一种差异化RGB-D SOD 交互模式,以充分利用两者的优势)


二、相关工作

1. 注意力机制

空间注意力机制[38]:使网络关注感兴趣的区域。

通道注意机制 [20] :学习每个通道的重要性。

在 RDE 和 DSE 模块中采用了空间方面和通道方面的注意。 此外,我们更关注注意力的跨模态应用,即利用一种模态生成的注意力图增强另一种模态特征,从而以注意力的形式实现更有效的跨模态引导

2. 跳过连接

Long-range skip connection是像素级预测任务中恢复图像细节的一种措施,几乎所有的RGB-D SOD模型都配备了它。 对于在编码器中发生跨模态交互的模型,跳过连接表示为直接的特征加法或连接, 对于在解码器中融合跨模态特征的其他网络,专有模块通常被设计为包含跳过特征(也称为边输出)。


三、跨模态差异交互网络(CDINet)

该网络由三部分组成:(1)RDE(2)DSE(3)DDR

该网络遵循编码器-解码器架构:包括两个编码器(RGB 和深度模态)和一个解码器,两个编码器均采用 VGG16网络,丢弃最后的池化层和全连接层,作为主干提取相应的多级特征表示,实现跨模态信息交互。从主干提取的RGB特征),深度特征)(其中

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/237698
推荐阅读
相关标签