[2021]Cross-modality Discrepant Interaction Network for RGB-D Salient Object Detection

作者：IT小白 | 2024-03-14 23:06:41

踩

cross-modality discrepant interaction network for rgb-d salient object detec

一、动机

二、相关工作

三、跨模态差异交互网络（CDINet）

3.1. RGB 诱导的细节增强(RDE) 模块：

3.2. 深度诱导语义增强（DSE）模块：

3.3. 密集解码重建（DDR）模块：

一、动机

低级 RGB 特征可以帮助深度特征区分同一深度级别的不同对象实例，而高级深度特征可以进一步丰富 RGB 语义并抑制背景干扰。为了充分发挥每种模态的优势，同时利用另一种模态来弥补自身，避免造成干扰。

解决特征编码器中的跨模态交互问题

提出了一种跨模态差异交互网络，根据不同层的特征表示，在编码器阶段对两种模态的依赖性进行差异建模，有选择地利用RGB特征补充深度分支的细节，并将深度特征转移到RGB模态中，以丰富语义表示。

（两种模式各有长处，根据它们的作用设计一种差异化的 RGB-D SOD 交互模式，以充分利用两者的优势）

二、相关工作

1. 注意力机制

空间注意力机制[38]：使网络关注感兴趣的区域。

通道注意机制 [20] ：学习每个通道的重要性。

在 RDE 和 DSE 模块中采用了空间方面和通道方面的注意。此外，我们更关注注意力的跨模态应用，即利用一种模态生成的注意力图来增强另一种模态特征，从而以注意力的形式实现更有效的跨模态引导。

2. 跳过连接

Long-range skip connection是像素级预测任务中恢复图像细节的一种措施，几乎所有的RGB-D SOD模型都配备了它。对于在编码器中发生跨模态交互的模型，跳过连接表示为直接的特征加法或连接， 对于在解码器中融合跨模态特征的其他网络，专有模块通常被设计为包含跳过特征（也称为边输出）。

三、跨模态差异交互网络（CDINet）

该网络由三部分组成：（1）RDE（2）DSE（3）DDR

该网络遵循编码器-解码器架构：包括两个编码器（RGB 和深度模态）和一个解码器，两个编码器均采用 VGG16网络，丢弃最后的池化层和全连接层，作为主干提取相应的多级特征表示，实现跨模态信息交互。从主干提取的RGB特征（），深度特征（）（其中

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/IT小白/article/detail/237698