当前位置:   article > 正文

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 29 日论文合集)_bridging cross-task protocol inconsistency for dis

bridging cross-task protocol inconsistency for distillation in dense object

文章目录

一、检测相关(18篇)

1.1 Neural Network Training Strategy to Enhance Anomaly Detection Performance: A Perspective on Reconstruction Loss Amplification

提高异常检测性能的神经网络训练策略:基于重构损失放大的视角

https://arxiv.org/abs/2308.14595
  • 1

无监督异常检测(UAD)是一种广泛采用的工业方法,由于罕见的异常发生和数据不平衡。UAD模型的一个理想特性是包含泛化能力,其擅长于重建可见的正常模式,但与不可见的异常作斗争。近年来的研究从不同的角度,如神经网络(NN)的结构和训练策略的设计,以包含其UAD模型在重建的泛化能力。相比之下,我们注意到,包含的泛化能力重建也可以简单地从陡峭的形状损失景观。出于这一动机,我们提出了一种损失景观锐化方法,通过放大重建损失,被称为损失AMPification(LAMP)。LAMP将损失景观变形为陡峭的形状,因此对不可见异常的重建误差变得更大。因此,在不改变神经网络结构的情况下,提高了异常检测性能。我们的研究结果表明,LAMP可以很容易地应用于任何重建错误的指标,在UAD设置中的重建模型是训练与无异常的样本。

1.2 SAAN: Similarity-aware attention flow network for change detection with VHR remote sensing images

SAAN:用于VHR遥感图像变化检测的相似性感知注意流网络

https://arxiv.org/abs/2308.14570
  • 1

变化探测是对地观测领域中一项基础性的重要任务。现有的基于深度学习的CD方法通常使用权重共享Siamese编码器网络来提取双时间图像特征,并使用解码器网络来识别变化区域。然而,这些CD方法的表现仍然远远不能令人满意,因为我们观察到1)深编码器层集中在不相关的背景区域上,以及2)在不同的解码器阶段,模型在变化区域中的置信度是不一致的。第一个问题是因为深度编码器层不能使用唯一的输出监督有效地从不平衡的变化类别中学习,而第二个问题归因于缺乏显式的语义一致性保持。为了解决这些问题,我们设计了一个新的相似性感知注意流网络(SAAN)。SAAN结合了一个相似性引导的注意流模块,具有深度监督的相似性优化,以实现有效的变化检测。具体来说,我们通过明确指导深层编码器层使用深度监督相似性优化从双时间输入图像中发现语义关系来解决第一个问题。所提取的特征被优化为在未改变的区域中语义相似,并且在改变的区域中语义不同。第二个缺点可以减轻所提出的相似性引导的注意力流模块,它结合了相似性引导的注意力模块和注意力流机制,以引导模型专注于有区别的通道和区域。我们评估了所提出的方法的有效性和泛化能力进行广泛的CD任务的实验。实验结果表明,我们的方法在几个CD任务上取得了优异的性能,与歧视性的功能和语义一致性的保留。

1.3 Face Presentation Attack Detection by Excavating Causal Clues and Adapting Embedding Statistics

挖掘因果线索和自适应嵌入统计量的人脸呈现攻击检测

https://arxiv.org/abs/2308.14551
  • 1

最近的人脸呈现攻击检测(PAD)利用域自适应(DA)和域泛化(DG)技术来解决未知域的性能下降。然而,基于DA的PAD方法需要访问未标记的目标数据,而大多数基于DG的PAD解决方案依赖于先验,即,已知域标签。此外,大多数基于DA/DG的方法是计算密集型的,需要复杂的模型架构和/或多阶段训练过程。本文提出从因果关系的角度将面PAD建模为复合DG任务,将其与模型优化相联系。我们通过反事实干预挖掘隐藏在高层次表征中的因果因素。此外,我们引入了一个类引导的MixStyle,以丰富类内的特征级数据分布,而不是专注于域信息。类引导的MixStyle和反事实干预组件都没有引入额外的可训练参数和可忽略的计算资源。广泛的跨数据集和分析实验表明,我们的方法相比,国家的最先进的PAD的有效性和效率。实现和训练的权重是公开可用的。

1.4 Group Regression for Query Based Object Detection and Tracking

基于查询的分组回归目标检测与跟踪

https://arxiv.org/abs/2308.14481
  • 1

组回归通常用于3D对象检测以预测关节头中的相似类的框参数,旨在从相似性中受益,同时分离高度不相似的类。对于基于查询的感知方法,这到目前为止还不可行。我们缩小了这一差距,并提出了一种方法,将多类组回归,特别是设计用于3D领域的自动驾驶的背景下,到现有的注意力和基于查询的感知方法。我们增强了基于Transformer的联合目标检测和跟踪模型,这种方法,并彻底评估其行为和性能。对于组回归,nuScenes数据集的类被分成六个具有相似形状和患病率的组,每个组由专用头回归。我们表明,该方法适用于许多现有的Transformer为基础的感知方法,可以带来潜在的好处。查询组回归的行为与统一的回归头进行了彻底的分析,例如在类别切换行为和输出参数的分布方面。所提出的方法提供了许多可能性,为进一步的研究,如在深多假设跟踪的方向。

1.5 Improving the performance of object detection by preserving label distribution

通过保留标签分布来提高目标检测性能

https://arxiv.org/abs/2308.14466
  • 1

对象检测是对图像或视频中的对象进行位置识别和标签分类的任务。通过这个过程获得的信息在计算机视觉领域的各种任务中起着至关重要的作用。在对象检测中,用于训练和验证的数据通常源自公共数据集,这些公共数据集在图像中归属于每个类别的对象的数量方面是平衡的。然而,在现实世界的场景中,处理具有大得多的类不平衡的数据集,即,对于每个类别的对象数量非常不同的情况更为常见,并且这种不平衡可能在预测未见的测试图像时降低对象检测的性能。因此,在我们的研究中,我们提出了一种方法,均匀地分布在图像中的类进行训练和验证,解决类不平衡的问题,在对象检测。我们提出的方法旨在通过多标签分层来保持均匀的类分布。我们测试了我们提出的方法,不仅在公共数据集,通常表现出平衡的类分布,但也在自定义数据集,可能有不平衡的类分布。我们发现,我们提出的方法是更有效的数据集包含严重的不平衡和较少的数据。我们的研究结果表明,所提出的方法可以有效地用于数据集的类分布基本上不平衡。

1.6 Bridging Cross-task Protocol Inconsistency for Distillation in Dense Object Detection

密集目标检测中用于蒸馏的跨任务协议不一致性弥合

https://arxiv.org/abs/2308.14286
  • 1

知识蒸馏(KD)已显示出学习紧凑模型在密集对象检测的潜力。然而,常用的基于softmax的蒸馏忽略了单个类别的绝对分类分数。因此,蒸馏损失的最优不一定导致密集对象检测器的最优学生分类分数。这种跨任务协议的不一致性是至关重要的,特别是对于密集的对象检测器,因为前景类别是非常不平衡的。为了解决蒸馏和分类之间的协议差异的问题,我们提出了一种新的蒸馏方法与跨任务一致的协议,量身定制的密集对象检测。对于分类蒸馏,我们解决跨任务协议的不一致性问题,通过制定的分类logit地图在教师和学生模型作为多个二进制分类地图和应用二进制分类蒸馏损失到每个地图。对于本地化蒸馏,我们设计了一个基于IoU的本地化蒸馏损失,它不受特定的网络结构,可以与现有的本地化蒸馏损失进行比较。我们提出的方法是简单而有效的,实验结果表明它优于现有的方法。代码可在https://github.com/TinyTigerPan/BCKD上获得。

1.7 Intergrated Segmentation and Detection Models for Dentex Challenge 2023

Dentex 2023挑战赛的综合分割和检测模型

https://arxiv.org/abs/2308.14161
  • 1

牙科全景X射线通常用于牙科诊断。随着深度学习技术的发展,牙科全景X光片中的疾病自动检测可以帮助牙科医生更有效地诊断疾病。Dentex Challenge 2023是一项从牙科全景X光片中自动检测异常牙齿及其枚举ID的比赛。在本文中,我们提出了一种方法,结合分割和检测模型来检测异常的牙齿,以及获得其枚举ID。我们的代码可在https://github.com/xyzlancehe/DentexSegAndDet。

1.8 Superpixels algorithms through network community detection

基于网络社区检测的超像素算法

https://arxiv.org/abs/2308.14101
  • 1

社区检测是复杂网络分析中的一个强大工具,在各个研究领域都有应用。若干图像分割方法依赖于例如作为黑盒的社区检测算法,以便计算欠分割,即表示图像的感兴趣区域的少量区域。然而,据我们所知,这种方法的效率w.r.t.迄今为止,超像素的目的是在更小的水平上表示图像,同时保留尽可能多的原始信息,一直被忽略。唯一相关的工作似乎是一个由刘等。等人(IET图像处理,2022),其使用所谓的模块化最大化方法开发了超像素算法,从而得到相关结果。我们遵循这条研究路线,通过研究由最先进的社区检测算法在4连接像素图(所谓的像素网格)上计算的超像素的效率。我们首先在这样的图上检测社区,然后应用一个简单的合并过程,允许获得所需数量的超像素。如我们将看到的,根据基于地面实况比较或仅基于超像素的不同的广泛使用的度量,这样的方法导致如由定性和定量实验两者强调的相关超像素的计算。我们观察到,社区检测算法的选择有很大的影响,社区的数量,因此对合并过程。类似地,像素网格上的小变化可以从定性和定量的角度提供不同的结果。为了完整起见,我们比较我们的结果与几个国家的最先进的超像素算法计算的Stutz等人。(计算机视觉和图像理解,2018)。

1.9 A comprehensive review on Plant Leaf Disease detection using Deep learning

基于深度学习的植物叶部病害检测研究综述

https://arxiv.org/abs/2308.14087
  • 1

叶部病害是植物常见的致死性病害。早期诊断和检测是必要的,以改善影响植物的叶病的预后。为了预测叶病,已经使用不同的植物病理学成像模式开发了几种自动化系统。本文对基于叶病模型的文献进行了系统综述,用于通过深度学习诊断各种植物叶病。本文介绍了不同深度学习模型的优点和局限性,包括Vision Transformer(ViT)、深度卷积神经网络(DCNN)、卷积神经网络(CNN)、基于残差跳过网络的叶病检测超分辨率(RSNSR-LDD)、疾病检测网络(DDN)和YOLO(You only look once)。该综述还表明,与叶病检测相关的研究将不同的深度学习模型应用于许多公开可用的数据集。为了比较模型的性能,可以使用不同的度量,例如准确度、精确度、召回率等。在现有的研究中使用。

1.10 Practical Edge Detection via Robust Collaborative Learning

基于稳健协作学习的实用边缘检测

https://arxiv.org/abs/2308.14084
  • 1

边缘检测作为一个面向视觉的任务中的核心部分,是识别自然图像中物体的边界和显著边缘。期望边缘检测器对于实际使用是高效且准确的。为实现这一目标,应关注两个关键问题:1)如何将深度边缘模型从大多数现有深度学习方法所利用的低效预训练骨干中解放出来,以节省计算成本并削减模型大小; 2)由于标注者的主观性和模糊性,在边缘检测中普遍存在噪声甚至错误标注对检测结果的影响,如何消除这些影响,提高边缘检测的鲁棒性和准确性。在本文中,我们试图同时解决上述问题,通过开发一个基于协作学习的模型,称为PEdger。我们的PEdger背后的原理是,从不同的训练时刻和异构(在这项工作中是循环和非循环)架构中学习到的信息可以被组装起来,以探索针对噪声注释的强大知识,即使没有额外数据的预训练的帮助。在BSDS 500和NYUD数据集上进行了广泛的消融研究以及定量和定性实验比较,以验证我们设计的有效性,并证明其在准确性,速度和模型大小方面优于其他竞争对手。代码可以在https://github.co/ForawardStar/PEdger上找到。

1.11 DETDet: Dual Ensemble Teeth Detection

DETDET:双重牙检测

https://arxiv.org/abs/2308.14070
  • 1

The field of dentistry is in the era of digital transformation. Particularly, artificial intelligence is anticipated to play a significant role in digital dentistry. AI holds the potential to significantly assist dental practitioners and elevate diagnostic accuracy. In alignment with this vision, the 2023 MICCAI DENTEX challenge aims to enhance the performance of dental panoramic X-ray diagnosis and enumeration through technological advancement. In response, we introduce DETDet, a Dual Ensemble Teeth Detection network. DETDet encompasses two distinct modules dedicated to enumeration and diagnosis. Leveraging the advantages of teeth mask data, we employ Mask-RCNN for the enumeration module. For the diagnosis module, we adopt an ensemble model comprising DiffusionDet and DINO. To further enhance precision scores, we integrate a complementary module to harness the potential of unlabeled data. The code for our approach will be made accessible at https://github.com/Bestever-choi/Evident

1.12 Hierarchical Contrastive Learning for Pattern-Generalizable Image Corruption Detection

分层对比学习在模式泛化图像腐败检测中的应用

https://arxiv.org/abs/2308.14061
  • 1

有效的图像恢复与大尺寸损坏,如盲图像修复,需要精确检测损坏区域掩模,这仍然是非常具有挑战性的,由于不同的形状和模式的损坏。在这项工作中,我们提出了一种新的方法,自动腐败检测,它允许盲目腐败恢复没有已知的腐败面具。具体来说,我们开发了一个层次的对比学习框架,通过捕获腐败和未腐败区域之间的内在语义区别来检测腐败区域。特别是,我们的模型检测损坏的掩模在粗到细的方式,首先预测一个粗糙的掩模,通过对比学习在低分辨率的特征空间,然后细化掩模的不确定区域,通过高分辨率的对比学习。设计了一种专门的层次交互机制,以促进不同尺度上对比学习的知识传播,大大提高建模性能。然后利用检测到的多尺度损坏掩码来引导损坏恢复。该模型通过学习腐败区域的对比区别而不是腐败的语义模式来检测腐败区域,具有很好的泛化能力。大量的实验表明,我们的模型具有以下优点:1)在损坏检测和包括盲修补和水印去除的各种图像恢复任务两者上优于其他方法的性能,以及2)跨不同损坏模式(诸如涂鸦、随机噪声或其他图像内容)的强泛化。代码和训练权重可在https://github.com/xyfJASON/HCL上获得。

1.13 Joint Gaze-Location and Gaze-Object Detection

联合视线定位与视线目标检测

https://arxiv.org/abs/2308.13857
  • 1

本文提出了一种有效的联合视线位置检测(GL-D)和视线目标检测(GO-D)方法,注视跟随检测。目前的方法框架GL-D和GO-D作为两个单独的任务,采用多阶段的框架,其中人类头部作物必须首先被检测到,然后被馈送到后续的GL-D子网络,这是进一步由一个额外的对象检测器GO-D。相比之下,我们重新定义的视线跟随检测任务,同时检测人的头部位置和他们的视线跟随,旨在联合检测人类的视线位置和注视对象在一个统一的和单级的管道。为此,我们提出了GTR,简称\underline{G}aze following detection \underline{TR}ansformer,通过消除所有额外的组件来简化注视跟随检测流水线,从而实现第一个以完全端到端的方式将GL-D和GO-D统一起来的统一范例。GTR通过层次结构实现了整体语义和人类头部特征之间的迭代交互,从全局图像上下文推断显着对象和人类注视的关系,并产生令人印象深刻的准确性。具体来说,GTR在GazeFollowing上实现了12.1 mAP增益( 25.1 % \mathbf{25.1}\% 25.1%),在VideoAttentionTarget上实现了18.2 mAP增益( 43.3 % \mathbf{43.3\%} 43.3%),在GOO-Real上实现了19 mAP改进( 45.2 % \mathbf{45.2\%} 45.2%)。同时,与现有系统由于需要人头作为输入而顺序地检测注视跟随不同,GTR具有同时理解任何数量的人的注视跟随的灵活性,从而导致高效率。具体来说,GTR在FPS中引入了超过KaTeX parse error: Undefined control sequence: \乘 at position 1: \̲乘̲以9的改进,并且随着人类数量的增长,相对差距变得更加明显。

1.14 SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection

SOGDet:语义占有率引导的多视点三维物体检测

https://arxiv.org/abs/2308.13794
  • 1

在自动驾驶领域,准确全面地感知3D环境至关重要。基于鸟瞰图(BEV)的方法已经成为使用多视图图像作为输入的3D对象检测的有前途的解决方案。然而,现有的3D目标检测方法往往忽略环境中的物理背景,如人行道和植被,导致次优性能。在本文中,我们提出了一种新的方法,称为SOGDet(语义占用引导的多视图3D对象检测),利用3D语义占用分支,以提高3D对象检测的准确性。特别地,由语义占用建模的物理上下文帮助检测器感知场景在一个更全面的视图。我们的SOGDet使用灵活,可以与大多数现有的基于BEV的方法无缝集成。为了评估其有效性,我们将这种方法应用于几个最先进的基线,并在独家nuScenes数据集上进行了广泛的实验。我们的研究结果表明,SOGDet一致地增强了三种基线方法在nuScenes检测分数(NDS)和平均平均精度(mAP)方面的性能。这表明3D对象检测和3D语义占用的组合导致对3D环境的更全面的感知,从而有助于构建更鲁棒的自动驾驶系统。代码可在以下网址获得:https://github.com/zhouqiu/SOGDet。

1.15 Out-of-distribution detection using normalizing flows on the data manifold

使用数据流形上的归一化流进行分布外检测

https://arxiv.org/abs/2308.13792
  • 1

用于分布外检测的常见方法涉及估计底层数据分布,其将较低似然值分配给分布外数据。归一化流是基于似然的生成模型,通过维保持可逆变换提供易于处理的密度估计。传统的归一化流在分布外检测中容易失败,因为众所周知的基于似然的模型的维数灾难问题。根据流形假设,真实世界的数据通常位于低维流形上。本研究探讨流形学习使用归一化流对分布外检测的影响。我们进行估计的密度上的低维流形,再加上测量的距离从流形,作为标准的分布检测。然而,就个别而言,他们中的每一个都不足以完成这项任务。大量的实验结果表明,流形学习提高了一类基于似然的模型的分布检测能力,称为归一化流。这种改进是在不修改模型结构或在训练期间使用辅助分布外数据的情况下实现的。

1.16 Zero-Shot Edge Detection with SCESAME: Spectral Clustering-based Ensemble for Segment Anything Model Estimation

基于SCESAME的Zero-Shot边缘检测:基于谱聚类的分段Any模型估计集成

https://arxiv.org/abs/2308.13779
  • 1

本文提出了一种新的zero-shot边缘检测与SCESAME,它代表基于光谱聚类的集成分段任何模型估计,基于最近提出的分段任何模型(SAM)。SAM是分割任务的基础模型,SAM的有趣应用之一是自动掩模生成(AMG),其生成整个图像的zero-shot分割掩模。AMG可以应用于边缘检测,但遭受过度检测边缘的问题。使用SCESAME的边缘检测通过三个步骤克服了这个问题:(1)消除生成的小掩模,(2)考虑掩模位置和重叠,通过谱聚类来组合掩模,以及(3)在边缘检测之后去除伪像。我们在两个数据集BSDS500和NYUDv2上进行了边缘检测实验。虽然我们的zero-shot方法很简单,但在BSDS500上的实验结果显示,与七年前的人类性能和基于CNN的方法几乎相同。在NYUDv2实验中,它的表现几乎和最近的基于CNN的方法一样好。这些结果表明,我们的方法有潜力成为一个强大的基线,未来的zero-shot边缘检测方法。此外,SCESAME不仅适用于边缘检测,而且还适用于其他下游zero-shot任务。

1.17 Post-Hoc Explainability of BI-RADS Descriptors in a Multi-task Framework for Breast Cancer Detection and Segmentation

乳腺癌检测与分割多任务框架中BI-RADS描述子的后自组织可解释性

https://arxiv.org/abs/2308.14213
  • 1

尽管最近的医学进步,乳腺癌仍然是妇女中最流行和最致命的疾病之一。尽管基于机器学习的计算机辅助诊断(CAD)系统已显示出帮助放射科医生分析医学图像的潜力,但性能最佳的CAD系统的不透明性引起了对其可信度和可解释性的担忧。本文提出了MT-BI-RADS,这是一种用于乳腺超声(BUS)图像中肿瘤检测的新型可解释深度学习方法。该方法提供了三个层次的解释,使放射科医师能够理解预测肿瘤恶性程度的决策过程。首先,所提出的模型输出的BI-RADS类别用于BUS图像分析的放射科医生。其次,该模型采用多任务学习来同时分割图像中对应于肿瘤的区域。第三,所提出的方法输出量化的贡献,每个BI-RADS描述符预测良性或恶性类使用事后解释与Shapley值。

1.18 Bias in Unsupervised Anomaly Detection in Brain MRI

脑MRI中非监督异常检测的偏差

https://arxiv.org/abs/2308.13861
  • 1

无监督异常检测方法提供了一个有前途的和灵活的替代监督的方法,持有革命性的医学扫描分析和提高诊断性能的潜力。 在当前的情况下,通常假设测试用例和训练分布之间的差异仅归因于病理条件,这意味着任何差异都表示异常。然而,分布变化的其他潜在来源的存在,包括扫描仪,年龄,性别或种族,经常被忽视。这些偏移可以显著地影响异常检测任务的准确性。这种失败的突出实例引发了对异常检测的偏差、可信度和公平性的关注。 这项工作提出了一种新的分析,在无监督异常检测的偏差。通过检查训练分布和测试分布之间潜在的非病理性分布变化,我们揭示了这些偏差的程度及其对异常检测结果的影响。此外,本研究探讨了由于偏见而产生的算法限制,为异常检测算法在准确学习和捕获规范分布中存在的整个变异范围时遇到的挑战提供了有价值的见解。通过这一分析,我们的目的是加强对这些偏见的理解,并为该领域的未来改进铺平道路。在这里,我们专门调查阿尔茨海默氏症的脑MR成像检测作为一个案例研究,揭示了显着的偏见与性别,种族和扫描仪的变化,大大影响了结果。这些发现与提高医学成像异常检测的可靠性、公平性和有效性的更广泛目标一致。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/131273
推荐阅读
  

闽ICP备14008679号