当前位置:   article > 正文

【前沿热点视觉算法】-RGB-D显著目标检测的边缘感知多模态变压器_目标检测前沿

目标检测前沿

计算机视觉算法分享。问题或建议,请文章私信或者文章末尾扫码加微信留言。

1 论文题目

  • RGB-D显著目标检测的边缘感知多模态变压器

2 论文摘要

  • RGB-D显著目标检测(SOD)近年来引起了广泛的关注。特别是,变压器已被使用,并显示出巨大的潜力。然而,现有的变压器模型往往忽略了重要的边缘信息,这是限制SOD精度进一步提高的主要问题。为此,我们提出了一种新的边缘感知RGB-D SOD变压器,称为EM-Trans,它在双带分解框架中显式地建模边缘信息。具体来说,我们采用两个并行解码器网络,分别从一个双蒸汽多模态主干网络中提取的低阶和高级特征中学习高频边缘和低频体特征。接下来,我们提出了一个交叉注意互补探索模块,利用多模态互补信息来丰富边缘/体特征。然后将改进后的特征输入到我们提出的颜色提示引导融合模块中,以增强深度特征和融合多模态特征。最后,利用我们的深度监督渐进融合模块对所得到的特征进行融合,该模块逐步集成边缘特征和身体特征来预测显著性映射。我们的模型明确地考虑了精确的RGB-D SOD的边缘信息,克服了现有方法的局限性,有效地提高了性能。在基准数据集上的大量实验表明,EM-Trans是一种有效的RGB-D SOD框架,无论在定量和定性上都优于当前最先进的模型。对RGB-T SOD的进一步扩展显示了我们的模型在各种多模态SOD任务中的巨大潜力。

3 论文创新点

  • 提出了一种新的边缘感知RGB-D SOD模型,该模型在多波段分解框架中明确考虑边缘信息,其中多模态体/边缘特征从从主干中提取的高/低级特征中预测。
  • 提出了CACE,一个有效的特征互补探索模块,通过利用具有交叉注意机制的多模态互补信息来丰富身体/边缘特征。
  • 设计了两个有效的融合模块,包括一个多模态融合模块(即CGMF),它集成了多模态特征,以及一个边缘-体融合模块(即DSPF),它逐步集成了身体和边缘特征与深度监督。
  • 对五个基准数据集进行的广泛的定量和定性评估表明,我们的EM-Trans优于最先进的(SOTA)RGB-D SOD模型。进一步的消融研究和对RGB-T SOD的扩展验证了所提出的模块的有效性,以及我们的EM-Trans对各种多模态SOD任务的潜力。

4 论文架构

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5 不足之处

  • 然而,我们的EM-Trans可能会在一些极具挑战性的情况下失败。图9显示了我们的EM-Trans和最近提出的四种SOTA模型的一些失效案例。在第一行中,我们的EM-Trans错误地检测到了水中的反射。在第二行中,EMTrans错误地识别了自行车车轮的中间部分。在最后一行中,EM-Trans忽略了雕像手中的旗帜。然而,值得注意的是,SOTA模型在这些情况下也失败了,而我们的EM-Trans仍然比这些SOTA模型获得了更好的性能。我们将通过考虑更详细的结构信息和全局语义信息来改进我们的模型。

6 未来展望

7 论文地址

  • https://ieeexplore.ieee.org/abstract/document/10433541

8 论文代码

  • https://github.com/nzqyw/EM-Trans

计算机视觉最新进展-Sora

  • 尽管Sora目前尚未向公众开放,但据悉,它可能首先向OpenAI的付费用户提供,如ChatGPT Plus用户(升级 ChatGPT Plus 的教程)。Sora的推出将极大地简化视频创作流程,并提供前所未有的高效性和便利性。如果您有兴趣了解如何使用Sora,可关注官方网站获取最新信息。

  • 如有其他疑问可以加以下微信二维码联系

在这里插入图片描述
更多计算机视觉最新最先进算法请扫描关注以下公众号
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/502397
推荐阅读
相关标签
  

闽ICP备14008679号