Monodyee

这个屌丝很懒，什么也没留下！

热门标签

目标检测_CVPR2020_uavdt 数据集

作者：Monodyee | 2024-02-24 22:13:01

踩

uavdt 数据集

关键词：

样本注意力（2）、NAS（3）

单帧目标检测

样本注意力

Learning a Unifified Sample Weighting Network for Object Detection | code

区域采样或加权对现代基于区域的目标探测器的成功至关重要。与以往优化目标函数时只关注硬样本的研究不同，我们认为样本权重应该是与数据和任务相关的。样本对目标函数优化的重要性取决于样本对目标分类和包围盒回归任务的不确定性。为此，我们设计了一个通用的损失函数来覆盖大多数基于区域的目标检测器，并在此基础上提出了一个统一的样本加权网络来预测样本的任务权值。我们的框架简单而有效。它利用样本在分类损失、回归损失、借据和概率得分上的不确定性分布来预测样本权重。我们的方法有以下几个优点:(1)它同时学习分类任务和回归任务的样本权重，这与以往的大多数工作不同。(ii).这是一个数据驱动的过程，因此避免了一些人工参数调整。(iii).它可以毫不费力地插入到大多数目标检测器上，并在不影响其推理时间的情况下取得显著的性能改进。我们的方法已经被最近的目标检测框架彻底地评估，它可以持续地提高检测的准确性。

Prime Sample Attention in Object Detection | code

在对象检测框架中，平等对待所有样本并以平均性能最大化为目标是一种常见的范式。在这项工作中，我们通过仔细研究不同的样本如何对mAP的整体性能做出贡献来重新审视这一范式。我们的研究表明，每个小批中的样本既不是独立的，也不是同等重要的，因此分类器越好，平均而言，mAP不一定越高。受此研究的启发，我们提出了质数样本的概念，这些质数样本在驱动检测性能方面起着关键作用。我们进一步开发了一种简单但有效的抽样和学习策略，称为主要样本注意(PISA)，它将训练过程的重点指向这些样本。我们的实验表明，在训练检测器时，聚焦于初始样本往往比聚焦于硬样本更有效。特别是，在MSCOCO数据集上，PISA优于随机抽样基线和硬挖掘方案，例如OHEM和Focal Loss，在单级和两级探测器上始终保持约2%的性能，即使有一个强大的ResNeXt-101主干

NAS

Hit-Detector: Hierarchical Trinity Architecture Search for Object Detection | code

神经结构搜索(NAS)在图像分类任务中取得了很大的成功。最近的一些工作已经成功地探索了用于目标检测的高效主干或特征融合层的自动设计。然而，这些方法只专注于搜索对象检测器的一个特定组件，而让其他组件手工设计。我们发现搜索组件和人工设计组件之间的不一致性会阻碍检测性能的提高。为此，我们提出了一种层次化的三位一体搜索框架，以端到端的方式同时发现目标检测器的所有组件(即骨干、颈部和头部)的高效架构。此外，我们的经验揭示，探测器的不同部分偏好不同的算子。基于此，我们提出了一种自动筛选不同组件子搜索空间的新方案，以便高效地对对应子搜索空间上的各个组件进行端到端搜索。在没有bells and whistles的情况下，我们搜索的架构Hit-Detector在COCO minival设置27M参数的情况下，达到了41.4%的mAP

NAS-FCOS: Fast Neural Architecture Search for Object Detection

深度神经网络的成功依赖于重要的体系结构工程。最近神经体系结构搜索(NAS)已经成为一种有望通过自动搜索最佳体系结构来大大减少网络设计中人工工作的方法，尽管这种算法通常需要大量的计算资源，例如几千GPU-days。到目前为止，在目标检测等具有挑战性的视觉任务中，NAS，特别是快速版本的NAS，研究较少。本文在考虑搜索效率的前提下，研究目标探测器的解码器结构。更具体地说，我们的目标是利用一种定制的强化学习范式，高效地搜索特征金字塔网络(FPN)以及简单无锚物体检测器FCOS[24]的预测头。通过精心设计的搜索空间、搜索算法和评估网络质量的策略，我们能够在4天内使用8 V100 gpu高效地搜索出性能最佳的检测架构。发现的架构在COCO数据集的AP上比最先进的对象检测模型(如更快的RCNN、RetinaNet和FCOS)高出1.5到3.5个点，具有相当的计算复杂度和内存占用，证明了提出的NAS用于对象检测的有效性

D2Det: Towards High Quality Object Detection and Instance Segmentation | code

我们提出了一种新的两阶段检测方法，D2Det，该方法同时解决了精确定位和精确分类的问题。为了精确定位，我们引入了密集局部回归，它可以为一个对象提案预测多个密集盒偏移量。与传统回归和二级探测器基于关键点的定位方法不同，本文的稠密局部回归方法不仅局限于固定区域内的量化关键点集，而且能够对位置敏感的实数稠密偏移量进行回归，从而实现更精确的定位。采用二值重叠预测策略进一步改进了稠密局部回归，降低了背景区域对最终箱形回归的影响。为了准确分类，我们引入了一种区分性RoI池方案，该方案从提案的各个子区域进行采样，并进行自适应加权以获得区分性特征。在MS COCO测试dev上，我们的D2Det优于现有的两阶段方法，使用ResNet101主干网，单模型性能为45.4 AP。当使用多尺度训练和推理时，D2Det的AP为50.1。除了检测，我们还采用了D2Det进行分割，与最先进的技术相比，实现了40.2的掩模AP，速度提高了两倍。我们还通过无人机图像(UAVDT数据集)目标检测和卫星图像(iSAID数据集)实例分割的实验验证了D2Det在机载传感器上的有效性。

AugFPN: Improving Multi-scale Feature Learning for Object Detection | code

目前最先进的探测器通常利用特征金字塔来检测不同尺度的目标。其中，FPN是通过多尺度特征求和构建特征金字塔的代表性作品之一。然而，其背后的设计缺陷阻碍了多尺度特征的充分利用。本文首先分析了FPN中特征金字塔的设计缺陷，然后引入了一种新的特征金字塔结构AugFPN来解决这些问题。AugFPN具体由三个部分组成:一致性监督、残差特征增强和软RoI选择。AugFPN缩小了不同尺度特征之间的语义差距，然后通过一致性监督进行特征融合。在特征融合中，利用残差特征增强提取比例不变上下文信息，以减少金字塔最高层特征映射的信息损失。最后，利用软RoI选择，在特征融合后自适应地学习出更好的RoI特征。通过在Faster RCNN中将FPN替换为AugFPN，当分别以ResNet50和MobileNet-v2为骨干时，我们的模型平均精度(AP)提高了2.3和1.6个点。此外，当以ResNet50为骨干时，AugFPN提高视网膜et 1.6点AP, FCOS提高0.9点AP

Multiple Anchor Learning for Visual Object Detection

分类和定位是视觉目标检测的两大支柱。然而，在基于cnn的检测器中，这两个模块通常在一组固定的候选(或锚)包围盒下进行优化。这种配置极大地限制了联合优化分类和本地化的可能性。在本文中，我们提出了一种多实例学习(MIL)方法来选择锚点并联合优化基于cnn的目标检测器的两个模块。我们的方法被称为多重锚学习(MAL)，构建锚袋并从每个锚袋中选择最具代表性的锚。这样的迭代选择过程可能是np -难以优化的。为了解决这一问题，我们通过扰动所选锚点的相应特征，反复降低锚点的置信度来解决MAL问题。MAL采用对抗选择-抑制的方式，不仅追求最优解，而且充分利用多个锚/特征学习检测模型。实验表明，MAL算法在常用的MS-COCO目标检测基准的基础上，改善了视黄醇基线，并取得了与现有方法相比新的先进检测性能

Dynamic Refifinement Network for Oriented and Densely Packed Object Detection

在过去的十年中，目标检测取得了显著的进展。然而，定向和密集目标的检测具有挑战性，其内在原因如下:(1)神经元的接受区都是轴向一致的，形状相同，而物体通常形状各异，沿不同方向排列;(2)检测模型通常是用通用知识训练的，在测试时不能很好地泛化处理特定的对象;(3)数据集有限，阻碍了该任务的开发。为了解决前两个问题，我们提出了一个由特征选择模块(FSM)和动态求精头(DRH)组成的动态求精网络。我们的FSM使神经元能够根据目标物体的形状和方向调整接受域，而DRH使我们的模型能够以物体感知的方式动态地改进预测。为了解决相关基准测试可用性有限的问题，我们收集了一个广泛的、完全注释的数据集，即SKU110K- r，它使用基于SKU110K的定向边界盒重新标记。我们对几个公开可用的基准测试进行定量评估，包括DOTA、HRSC2016、SKU110K和我们自己的SKU110K- r数据集。实验结果表明，与基准方法相比，我们的方法获得了一致和显著的增益。我们的源代码和数据集将被发布，以鼓励后续研究

Seeing without Looking: Contextual Rescoring of Object Detections for AP Maximization

当前的大多数对象检测器都缺乏上下文:类预测是独立于其他检测进行的。我们建议通过对任意检测器的输出进行后处理来将上下文纳入到目标检测中，以重核其检测的机密。重新定位是通过从整个检测集的上下文信息来完成的:他们的信任，预测的阶级，和职位。我们证明，AP可以通过简单地重新分配检测置信值来提高，这样，存活时间较长的真阳性(即那些具有正确类别和大借据的真阳性)得分高于假阳性或小借据的检测。在这种情况下，我们使用一个带有注意力的双向RNN进行上下文重采样，并引入一个训练目标，该训练目标使用带有ground truth的IoU来最大化给定检测集的AP。事实上，我们的方法不需要访问视觉特征，使它的计算成本低廉，不可知的检测架构。尽管如此简单,我们的模型提升了强壮预训练基准的准确率(级Cascade R-CNN和更Faster R-CNN几个骨干),特别是通过减少双边检测的置信度(一种非最大抑制的学习形式)和通过条件作用来移除上下文之外的对象,类,位置,和大小。

DR Loss: Improving Object Detection by Distributional Ranking

大多数目标检测算法可以分为两类:两级检测器和单级检测器。近年来，人们致力于单级探测器的研究，以实现简单而有效的结构。与两阶段探测器不同的是，单阶段探测器的目标是从所有候选物体中识别出前景物体。这种架构是有效的，但是会受到两个方面的不平衡问题的影响:前台和后台类的候选人数量之间的类间不平衡，以及后台候选人硬度方面的类内不平衡，只有少数候选人很难被识别。在本研究中，我们提出了一种新的损失分配排序(DR)来应对这一挑战。对于每一幅图像，我们将分类问题转化为排序问题，考虑图像中候选对，以解决类间不平衡问题。然后，我们将前景和背景的置信值分布推向决策边界。在此基础上，我们优化了派生分布的期望秩，以代替原始分布对。该方法不仅缓解了背景候选算法中类内不均衡的问题，而且提高了排序算法的效率。仅用所开发的DR损失代替视网膜网的焦损失，并以ResNet-101为骨干，在没有干扰的情况下，将COCO单尺度测试图由39.1%提高到41.7%，验证了所提出的损失函数的有效性

Offset Bin Classifification Network for Accurate Object Detection

目标检测结合了目标分类和目标定位问题。现有的目标检测方法通常是利用经过平滑L1损失函数训练的回归网络来预测候选框与目标之间的偏移量来定位目标。然而，该损失函数对误差较大的不同样本应用相同的惩罚，导致回归网络次优和不准确的偏移。在本文中，我们提出了一种基于交叉熵损失优化的偏移bin分类网络，以预测更准确的偏移量。它不仅对不同的样本提供了不同的惩罚，而且避免了误差较大的样本造成的梯度爆炸问题。具体地说，我们将连续偏移量离散到若干个容器中，并预测每个容器偏移量的概率。在此基础上，提出了一种基于期望的偏移量预测方法和分层聚焦方法来提高预测精度。在PASCAL VOC和MS-COCO数据集上的大量实验验证了该方法的有效性。我们的方法比基准方法性能好很多

Robust Object Detection under Occlusion with Context-Aware CompositionalNets

检测部分遮挡的物体是一项困难的任务。我们的实验结果表明，深度学习方法，如Faster R-CNN，在遮挡下的目标检测不具有鲁棒性。合成卷积神经网络(CompositionalNets)已被证明在分类遮挡对象时是健壮的，它通过明确地将对象表示为组成部分。在这项工作中，我们建议克服CompositionalNets的两个限制，这将使他们能够检测部分遮挡的对象:1)CompositionalNets，以及其他DCNN架构，不明确地将上下文的表示从对象本身分离出来。在物体遮挡较强的情况下，上下文的影响被放大，对测试时的检测产生严重的负面影响。为了克服这一问题，我们提出在训练过程中通过包围框标注分割上下文。然后，我们使用分割来学习一个上下文感知的组合网络，它分解了上下文和对象的表示。2)将CompositionalNets中基于部分的投票方案扩展到对象包围盒的各个角落的投票，使模型能够可靠地估计部分遮挡对象的包围盒。我们的大量实验表明，我们提出的模型可以稳健地检测目标，相对于Faster R-CNN，在绝对性能上分别提高了PASCAL3D+和MS-COCO强遮挡车辆的检测性能41%和35%

Scale-Equalizing Pyramid Convolution for Object Detection | code

特征金字塔是提取不同尺度下特征的有效方法。该方法的开发主要集中在对不同层次的上下文信息进行聚合，而很少涉及特征金字塔中的层间关联。早期的计算机视觉方法通过在空间和尺度维度上定位特征极值来提取尺度不变特征。受此启发，本文提出了一种跨金字塔水平的卷积，称为金字塔卷积，是一种改进的三维卷积。堆叠金字塔卷积直接提取三维(尺度和空间)特征，优于其他精心设计的特征融合模块。基于3-D卷积的观点，在金字塔卷积之后自然插入从整个特征金字塔收集统计信息的成批归一化处理。此外，我们还证明了朴素金字塔卷积和视网膜头的设计，实际上最适合于从高斯金字塔中提取特征，而高斯金字塔的特性很难被特征金字塔所满足。为了减少这种差异，我们构建了一个尺度均衡的金字塔卷积(SEPC)，它只在高层特征图上对齐共享的金字塔卷积核。SEPC模块的计算效率高，与大多数单级目标探测器的头部设计兼容，带来了显著的性能改进(>在最先进的一级目标探测器上增加了4AP)，一个轻版本的SEPC也有3.5AP增益，只有大约7%的推理时间增加。金字塔卷积在两级目标检测器中也可以作为一个独立的模块发挥作用，可以通过2AP提高检测性能

Rethinking Classifification and Localization for Object Detection

在基于R-CNN的检测器中，两种头部结构(全连通头部和卷积头部)被广泛应用于分类和定位任务。然而，人们对这两种头部结构是如何完成这两项任务的还缺乏了解。为了解决这个问题，我们进行了深入的分析，发现了一个有趣的事实，即两种头部结构对两种任务有相反的偏好。其中全连接头(fc-head)更适合于分类任务，卷积头(convo -head)更适合于定位任务。进一步地，我们检验了这两个头的输出特征映射，发现fc-head比convhead具有更大的空间灵敏度。因此，fc-head具有较强的分辨整个目标和部分目标的能力，但对整个目标的回归不具有鲁棒性。在此基础上，我们提出了一种双头方法，该方法具有以分类为主的全连通头和用于边界盒回归的卷积头。在没有附加功能的情况下，我们的方法在MS COCO数据集上分别从ResNet-50和ResNet-101的特征金字塔网络(FPN)基线上获得了+3.5和+2.8 AP

多帧目标检测

Context R-CNN: Long Term Temporal Context for Per-Camera Object Detection

在静态监控摄像机中，有用的上下文信息可以远远超出典型的视频理解模型可能看到的几秒钟:受试者可能在多天内表现出类似的行为，而背景物体保持静止。由于电源和存储的限制，采样频率很低，通常每秒不超过一帧，有时由于使用运动触发器而不规则。为了在这种设置下表现良好，模型必须对不规则采样率具有鲁棒性。在本文中，我们提出了一种方法，利用时间上下文从一个新的相机的无标记帧，以提高性能在该相机。具体来说，我们提出了一种基于注意力的方法，该方法允许我们的模型上下文R-CNN索引到一个基于每个摄像机的长期存储库中，并从其他帧中聚合上下文特征，以提高当前帧上的目标检测性能。我们将上下文R-CNN应用于两个设置:(1)使用陷阱相机的物种检测，和(2)交通相机的车辆检测，在这两种设置中，上下文R-CNN导致性能优于强基线。此外，我们表明，增加上下文时间范围导致改善的结果。当应用于塞伦盖蒂快照数据集的相机捕捉数据时，上下文R-CNN具有长达一个月的上下文图像的表现优于单帧基线17.9%的mAP，优于S3D(基于3d卷积的基线)11.2%的mAP。

Memory Enhanced Global-Local Aggregation for Video Object Detection | code

人类如何识别视频中的物体?由于单帧图像质量的恶化，人们可能很难仅仅利用一幅图像中的信息来识别该帧中被遮挡的物体。我们认为人类识别视频中的物体有两个重要的线索:全局语义信息和局部定位信息。近年来，许多方法都采用自注意机制，利用全局语义信息或局部定位信息增强关键帧的特征。本文介绍了内存增强的全局-局部聚合(MEGA)网络，它是第一个充分考虑全局和局部信息的网络。此外，通过一个新颖的精心设计的长距离存储器(LRM)模块，我们提出的MEGA可以使关键帧访问比以往任何方法都要多的内容。通过这两种信息源的增强，我们的方法在ImageNet VID数据集上达到了最先进的性能

Cylindrical Convolutional Networks for Joint Object Detection and Viewpoint Estimation

现有的深度卷积神经网络空间不变性编码技术只对二维变换域进行建模。这并不能解释一个事实，即2D空间中的物体是3D空间的投影，因此它们对严重的物体视角变化的能力有限。为了克服这个限制，我们引入了一个可学习的模块，圆柱形卷积网络(CCNs)，它利用了三维空间中定义的卷积核的圆柱形表示。CCNs通过特定于视图的卷积内核提取特定于视图的特征，以预测每个视点的对象类别得分。利用所提出的正弦softargmax模块，结合特定视点特性，同时确定目标类别和视点。实验证明了圆柱卷积网络在联合目标检测和视点估计方面的有效性。

弱监督 | 半监督 | 无监督

SLV: Spatial Likelihood Voting for Weakly Supervised Object Detection

基于多实例学习(MIL)框架的大量工作促进了弱监督目标检测(WSOD)的发展。然而，大多数基于MIL的方法倾向于将实例本地化到它们有区别的部分，而不是整个内容。在本文中，我们提出一个空间似然投票(SLV)模块来收敛建议的本地化过程，不需要任何包围框注释。具体来说，给定图像中的所有区域提案在每次迭代训练过程中都扮演投票人的角色，投票给每个类别在空间维度上的可能性。对似然值较大的区域进行扩容对齐后，将投票结果规格化为包围盒，用于最终的分类和定位。在SLV的基础上，我们进一步提出了一个多任务学习的端到端训练框架。分类任务和定位任务相互促进，进一步提高了检测性能。在PASCAL VOC 2007和2012数据集上的大量实验证明了SLV的优越性能

CentripetalNet: Pursuing High-quality Keypoint Pairs for Object Detection

基于关键点的探测器已经取得了相当好的性能。然而，不正确的关键点匹配仍然是普遍存在的，并严重影响了检测器的性能。在本文中，我们提出了CentripetalNet，它利用向心位移对来自同一实例的角点进行配对。CentripetalNet预测角点的位置和向心位移，并匹配位移结果对齐的角点。结合位置信息，我们的方法比传统的嵌入方法更精确地匹配角点。角落池提取边界边界内的边界框内的信息。为了使角点处的信息更加清晰，我们设计了一个跨星可变形卷积网络进行特征自适应。此外，我们还在无锚定检测器上探索实例分割，将中心网装备为掩码预测模块。在MS-COCO测试dev上，我们的CentripetalNet不仅以48.0%的AP优于所有现有的无锚探测器，而且还以40.2% M askAP达到了与最先进的实例分割方法相当的性能

Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector | code

传统的目标检测方法通常需要大量的训练数据，而准备这样高质量的训练数据是非常耗费人力的。本文提出了一种新的多镜头目标检测网络，通过几个标注示例来检测未知类别的目标。该方法以注意力- rpn、多关系检测器和对比训练策略为核心，利用少数镜头支持集和查询集之间的相似性来检测新目标，同时抑制背景中的误检测。为了训练我们的网络，我们提供了一个新的数据集，其中包含1000个类别的各种对象，具有高质量的注释。据我们所知，这是专门为少镜头物体检测设计的第一个数据集。一旦我们的网络经过训练，它可以检测看不到类别的物体，而不需要进一步的训练或微调。我们的方法具有通用性和广泛的潜在应用。我们产生了一个新的国家艺术水平的表现在不同的数据集在少数镜头设置

Instance-Aware, Context-Focused, and Memory-Effificient Weakly Supervised Object Detection | code

弱监督学习通过减少训练过程中对强监督的需要，已经成为一种引人注目的目标检测工具。然而，主要的挑战仍然存在:(1)对象实例的区分可能是模糊的;(2)探测器倾向于关注有鉴别性的部分而不是整个物体;(3)如果没有ground truth，对于高回忆来说，目标提案必须是冗余的，这会导致严重的内存消耗。解决这些挑战是困难的，因为它通常需要消除不确定性和琐碎的解决方案。为了解决这些问题，我们开发了一个实例感知的、以上下文为中心的统一框架。它采用了一个实例感知的自训练算法和一个可学习的具体DropBlock，同时设计了一个记忆有效的顺序批处理反向传播。我们提出的方法在COCO (12.1% AP, 24.8% AP50)、2007年VOC (54.9% AP)和2012年VOC (52.1% AP)方面取得了最先进的结果，极大地改善了基线。此外，本文提出的方法首次对基于ResNet的模型和弱监督视频对象检测进行了基准测试

Weakly-Supervised Salient Object Detection via Scribble Annotations

与费力的密集的像素标记相比，通过涂鸦来标记数据要容易得多，标记一幅图像只需花费12秒。然而，利用涂鸦标记学习显著性目标检测的研究还没有开展。在本文中，我们提出了一个弱监督显著目标检测模型，从这些标注中学习显著性。为了做到这一点，我们首先用涂鸦重新标记一个现有的大型显著目标检测数据集，即S-DUTS数据集。由于对象结构和细节信息不能通过涂鸦来识别，直接使用涂鸦标签进行训练会导致显著性图的边界定位效果不佳。为了解决这一问题，我们提出了一个辅助边缘检测任务来明确定位目标边缘，并提出了一个门控结构感知丢失任务来限制待恢复结构的范围。此外，我们设计了一个涂鸦增强方案，迭代地巩固我们的涂鸦注释，然后作为监督学习高质量的显著性地图。由于现有显著性评价指标忽视了对预测结构对齐的度量，显著性图排序指标可能不符合人的感知。我们提出了一个新的度量，称为显著性结构度量，作为评价预测清晰度的补充度量。在6个基准数据集上的大量实验表明，我们的方法不仅优于现有的弱监督/无监督方法，而且与几个全监督的最新模型相当

3D目标检测

Density Based Clustering for 3D Object Detection in Point Clouds

目前的3D检测网络要么依赖于2D对象建议，要么尝试从场景中的每个点直接预测包围盒参数。前一种方法依赖于二维探测器的性能，后一种方法由于点云的稀疏和遮挡而具有挑战性，难以回归准确的参数。在这项工作中,我们引入一个新的3 d对象检测方法具有重要意义在两个主要方面:a)级联模块化方法,每个模块的接受域关注特定点的点云,改善功能学习和b)类不可知论者实例使用无监督聚类分割模块,启动。级联方法的目标是按顺序最小化通过网络的点的数量。而三个不同的模块通过各自训练的基于点的网络执行背景前景分割、类无关实例分割和目标检测等任务。我们还评估了模块中的贝叶斯不确定性，在我们的预测结果中展示了所有级别的信心。该网络的性能是在SUN RGB-D基准数据集上进行评估的，与最先进的方法相比，该数据集显示了一种改进。

A Hierarchical Graph Network for 3D Object Detection on Point Clouds

基于点云的三维目标检测有着广泛的应用。然而，大多数已知的点云目标检测方法并不能充分适应点云的稀疏性等特征，从而不能很好地捕捉到一些关键的语义信息(如形状信息)。本文提出了一种新的基于图卷积(GConv)的层次图网络(HGNet)用于三维目标检测，该网络直接对原始点云进行处理来预测三维包围盒。HGNet有效地捕获了点之间的关系，并利用多层语义进行目标检测。特别地，我们提出了一种新的关注形状的GConv (SA-GConv)，通过建模点的相对几何位置来描述物体的形状，从而捕获局部形状特征。基于SA-GConv的u形网络捕获多层特征，通过改进的投票模块映射到相同的特征空间，然后进一步利用该特征空间生成建议。然后，基于GConv的建议推理模块考虑全局场景语义对建议进行推理，并预测包围盒。因此，我们的新框架在两个大尺度点云数据集上优于最先进的方法，在SUN RGB-D上的平均平均精度(mAP)高出4%，在ScanNet-V2上的mAP高出3%

DSGN: Deep Stereo Geometry Network for 3D Object Detection | code

最先进的3D物体探测器严重依赖于激光雷达传感器，因为基于图像的方法和基于激光雷达的方法之间存在很大的性能差距。这是由于在三维场景中对预测形成表征的方式造成的。我们的方法称为深度立体几何网络(DSGN)，通过在可微体积表示的三维几何体上检测三维物体，有效地为三维规则空间编码三维几何结构，显著地减少了这一差距。有了这种表示法，我们同时学习深度信息和语义线索。我们首次提供了一种简单而有效的单阶段基于立体的三维检测管道，以端到端学习的方式联合估计深度和检测三维物体。我们的方法优于以前的基于立体的3D探测器(在AP方面大约高10)，甚至在KITTI 3D物体检测排行榜上实现与几种基于lidar的方法相当的性能

MonoPair: Monocular 3D Object Detection Using Pairwise Spatial Relationships

单目三维目标检测是自动驾驶中一个重要的组成部分，同时也是一个具有挑战性的问题，特别是对于那些局部可见的遮挡样本。大多数检测器将每个三维对象作为独立的训练目标，不可避免地导致对遮挡样本缺乏有用的信息。为此，我们提出了一种通过考虑成对样本之间的关系来改进单目三维目标检测的新方法。这允许我们从相邻的邻居中为部分遮挡的对象编码空间约束。具体地说，所提出的检测器计算目标位置和相邻目标对的三维距离的不确定感知预测，这些预测随后通过非线性最小二乘联合优化。最后，将单站不确定性预测结构与后优化模块进行了集成，保证了系统的运行效率。实验表明，我们的方法产生了KITTI 3D检测基准的最佳性能，通过远远超过最先进的竞争对手，特别是硬样本

Learning Depth-Guided Convolutions for Monocular 3D Object Detection | code

由于缺乏准确的深度信息，在没有激光雷达的情况下从单幅图像中进行三维目标检测是一项具有挑战性的任务。传统的二维卷积算法由于无法捕获局部目标及其尺度信息而不适用于此任务，而这对于三维目标检测至关重要。为了更好地表示三维结构，现有技术通常将二维图像估计的深度图转换为伪激光雷达表示，然后应用现有的基于三维点云的目标探测器。然而，他们的结果严重依赖于估计的深度图的准确性，导致性能欠佳。在这个工作,而不是使用pseudo-LiDAR表示,我们改善基本2 d完全运算提出了一个新的本地卷积网络(LCN),称为Depth-guided Dynamic-Depthwise-Dilated LCN (D4LCN),过滤器和他们接受字段可以自动从基于图像的深度地图,使不同像素的不同的图片有不同的过滤器。D4LCN克服了传统二维卷积的局限性，缩小了图像表示与三维点云表示之间的差距。大量的实验表明，D4LCN的性能大大优于现有的工作。例如，在中等设置下，D4LCN相对于KITTI的最新水平的相对改善为9.1%。D4LCN在提交KITTI单眼三维物体检测基准测试中排名第一(2019年12月，car)

Associate-3Ddet: Perceptual-to-Conceptual Association for 3D Point Cloud Object Detection

从3D点云中进行目标检测仍然是一项具有挑战性的任务，尽管最近的研究用深度学习技术突破了极限。由于点云数据存在严重的空间遮挡和点密度随传感器距离变化的内在差异，同一目标在点云数据中的外观变化很大。因此，针对这种外观变化设计鲁棒的特征表示是三维物体检测方法的关键问题。本文创新性地提出了一种类似域自适应的方法来增强特征表示的鲁棒性。更具体地说，我们在感知域(特征来自真实场景)和概念域(特征来自增强场景(由丰富详细信息的非遮挡点云组成)之间架起了桥梁。这种领域适应方法模拟了人脑在进行物体感知时的功能。大量的实验表明，我们简单而有效的方法从根本上提高了三维点云物体检测的性能，并达到了最先进的结果

Structure Aware Single-stage 3D Object Detection from Point Cloud

基于点云数据的三维目标检测在自动驾驶中起着至关重要的作用。目前的单级检测器是高效的，它以一种完全卷积的方式逐步缩小三维点云。然而，压缩后的特征不可避免地丢失了空间信息，不能充分利用三维点云的结构信息，降低了定位精度。在本研究中，我们提出利用三维点云的结构信息来提高单级探测器的定位精度。具体来说，我们设计了一个辅助网络，将骨干网中的卷积特征转换回点级表示。通过两个点级监督，共同优化辅助网络，引导骨干网络中的卷积特征感知对象结构。训练后的辅助网络可以被分离，因此在推理阶段不引入额外的计算。此外，针对单级检测器预测边界盒与分类信任之间存在不一致性的问题，提出了一种有效的部分敏感翘曲操作，将分类信任盒与预测边界盒对齐。我们提出的检测器在KITTI 3D/BEV检测排行榜上名列前茅，运行速度为25 FPS

IDA-3D: Instance-Depth-Aware 3D Object Detection from Stereo Vision for Autonomous Driving | code

三维目标检测是自动驾驶和虚拟现实中一个重要的场景理解任务。基于激光雷达技术的方法具有较高的性能，但激光雷达的成本较高。考虑更一般的场景,没有3 d激光雷达数据的数据集,我们提出一个3 d对象从立体视觉检测的方法不依赖于激光雷达数据作为输入或监督训练,但只需要RGB图像与相应的注释3 d边界框作为训练数据。摘要针对影响三维目标检测性能的关键因素是物体的深度估计问题，提出了一种基于实例深度感知、视差自适应和匹配代价重加权的三维包围盒中心深度预测模块。我们的模型是一个端到端的学习框架，不需要多阶段和后处理算法。我们在KITTI基准上提供了详细的实验，与现有的基于图像的方法相比，实现了令人印象深刻的改进

ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votes

由于点云深度学习技术的进步，三维目标检测取得了快速进展。最近的一些作品甚至显示了最先进的性能，只需要点云输入(如VOTENET)。然而，点云数据有其固有的局限性。它们稀疏，缺乏颜色信息，经常受到传感器噪声的影响。另一方面，图像具有高分辨率和丰富的纹理。因此，它们可以补充点云提供的3D几何图形。然而如何有效利用图像信息辅助点云检测仍是一个有待解决的问题。在本文中，我们在VOTENET的基础上，提出了一种专门用于RGB-D场景的3D检测架构IMVOTENET。IMVOTENET是基于融合图像中的2D投票和点云中的3D投票。与以往的多模态检测相比，本文明确地从二维图像中提取几何特征和语义特征。我们利用相机参数将这些功能提升到3D。为了提高2D-3D特征融合的协同能力，我们还提出了一种多塔训练方案。我们在具有挑战性的SUN RGB-D数据集上验证了我们的模型，通过5.7 mAP提高了最先进的结果。我们还提供了丰富的消融研究来分析每种设计选择的贡献

End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection | code

可靠、准确的三维目标检测是实现安全自主驾驶的必要条件。虽然激光雷达传感器可以提供精确的三维点云环境估计，但在许多情况下，它们也非常昂贵。伪激光雷达(PL)的引入使得基于激光雷达传感器的方法与基于廉价立体相机的方法之间的精度差距大大缩小。PL结合了最先进的深度神经网络，用于三维深度估计和那些通过转换二维深度图输出到三维点云输入的三维物体检测。然而，到目前为止，这两个网络还必须单独训练。在本文中，我们介绍了一个基于可微分表示变化模块的新框架，该框架允许整个PL管道端到端训练。最终的框架是兼容最先进的网络，为这两个任务，并结合PointRCNN改进超过PL始终在所有基准产生KITTI基于图像的3D对象检测排行榜上的最高进入提交时

Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud | code

本文提出了一种基于图神经网络的激光雷达点云目标检测方法。为此，我们在一个固定半径的近邻图中有效地编码点云。我们设计了一个图神经网络点gnn，用来预测图中每个顶点所属对象的类别和形状。在point-gnn中，我们提出了一种自动配准机制来减少平移方差，并设计了一个盒合并和评分操作来精确合并多个顶点的检测。我们在KITTI基准上的实验表明，该方法仅使用点云就可以达到领先的精度，甚至可以超过基于融合的算法。我们的结果证明了使用图神经网络作为一种新的三维目标检测方法的潜力

PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection

我们提出了一种新的高性能三维物体检测框架PointVoxel-RCNN (PV-RCNN)，用于从点云中精确地检测三维物体。我们提出的方法深入集成了3D体素卷积神经网络(CNN)和基于点的集合抽象，以学习更多的判别点云特征。它利用了3D体素CNN的高效学习和高质量建议，以及基于点网的网络的灵活接收域。具体地说，该框架通过一个新的体素集抽象模块将具有3D体素CNN的3D场景归纳为一个小的关键点集，以节省后续计算，并对具有代表性的场景特征进行编码。针对体素CNN生成的高质量3D提案，提出了RoIgrid池，通过关键点集抽象将提案特定的特征抽象到roi网格点。与传统的池化操作相比，RoI-grid特征点编码了更丰富的上下文信息，可用于精确估计对象的坐标和位置。在KITTI数据集和Waymo开放数据集上的大量实验表明，我们提出的PV-RCNN以显著的优势超越了最先进的3D检测方法

Disp R-CNN: Stereo 3D Object Detection via Shape Prior Guided Instance Disparity Estimation | code

在本文中，我们提出一种新的系统Disp R-CNN用于三维物体检测从立体图像。最近的许多工作都是通过利用视差估计恢复点云，然后应用三维检测器来解决这个问题。视差映射是为整个图像计算的，这是昂贵的，而且不能利用特定类别的先验。相比之下，我们设计了一个实例视差估计网络(iDispNet)，它只预测感兴趣物体上的像素的视差，并学习一个类别特定的形状优先，以便更准确地估计视差。为了解决训练中视差标注不足的问题，我们提出了一种不需要激光雷达点云的统计形状模型来生成密集的视差伪地真，使我们的系统具有更广泛的适用性。在KITTI数据集上的实验表明，即使在训练时激光雷达地面真相不可用，Disp R-CNN实现了具有竞争力的性能，并在平均精度方面优于之前的最先进的方法20%

Physically Realizable Adversarial Examples for LiDAR Object Detection

现代自动驾驶系统严重依赖深度学习模型来处理点云感知数据;与此同时，深度模型已被证明易受对抗性攻击的影响，这些攻击带有视觉上难以察觉的扰动。尽管这给自动驾驶行业带来了安全方面的担忧，但在3D感知方面的探索很少，因为大多数对抗性攻击只应用于2D平面图像。在本文中，我们解决了这个问题，并提出了一种生成通用3D对抗对象的方法来欺骗激光雷达探测器。特别地，我们展示了在任何目标车辆的屋顶上放置一个对抗物体来完全隐藏车辆，使其不被激光雷达探测器发现，成功率为80%。我们使用点云的各种输入表示来报告一套检测器上的攻击结果。我们还利用数据增强进行了对抗性防御的试点研究。这是朝着更安全的无人驾驶技术又近了一步，无人驾驶技术可以在看不到的情况下使用有限的训练数据

PointPainting: Sequential Fusion for 3D Object Detection

相机和激光雷达是机器人，特别是自动驾驶汽车的重要传感器形式。传感器提供补充信息，为紧密的传感器融合提供机会。令人惊讶的是，仅lidar方法在主要基准数据集上优于融合方法，这表明文献中存在空白。在本研究中，我们提出了点绘制:一种序列融合方法来填补这一空白。点绘的工作原理是将激光雷达点投射到一个纯图像语义分割网络的输出中，并将类别分数附加到每个点上。然后，附加(绘制)的点云可以提供给任何lidaronly方法。实验表明，在三种不同的最先进的方法，Point-RCNN, VoxelNet和PointPillars在KITTI和nuScenes数据集上有很大的改进。PointRCNN的彩色版本代表了KITTI鸟瞰图检测任务排行榜上的一个新的艺术状态。在消融过程中，我们研究了绘画效果如何依赖于语义分割输出的质量和格式，并演示了如何通过流水线最小化延迟

MLCVNet: Multi-Level Context VoteNet for 3D Object Detection | code

本文利用自注意机制和多尺度特征融合的方法，通过捕获多层上下文信息来实现三维目标检测。现有的大多数三维物体检测方法都是单独识别物体，没有考虑到物体之间的上下文信息。相比之下，我们在目前最先进的VoteNet的基础上，提出了多层上下文VoteNet (MLCVNet)来识别相互关联的三维对象。我们在VoteNet的投票和分类阶段引入了三个上下文模块，对不同层次的上下文信息进行编码。具体地说，在为它们对应的对象质心点投票之前，使用Patch-to-Patch上下文(PPC)模块捕获点之间的上下文信息。随后，在提案和分类阶段之前合并对象到对象上下文(OOC)模块，以捕获对象候选之间的上下文信息。最后，设计了全局场景上下文(Global Scene Context, GSC)模块来学习全局场景上下文。我们通过捕获补丁、对象和场景级别的上下文信息来演示这些。我们的方法是一种提高检测精度的有效方法，在具有挑战性的三维物体检测数据集，即SUN RGBD和ScanNet上实现新的最先进的检测性能

HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection

本文提出了一种基于点云的自动驾驶三维目标检测统一网络——混合体素网络(HVNet)。最近的研究表明，利用每个体素点网风格的特征提取器进行二维体素化可以实现对大型3D场景的准确、高效的检测器。由于特征映射的大小决定了计算和内存成本，体素的大小成为一个难以平衡的参数。体素尺寸越小，性能越好，特别是对于小对象，但是推理时间越长。较大的体素可以用较小的特征地图覆盖相同的区域，但无法捕捉复杂的特征和较小物体的准确位置。我们提出了一种混合体素网络，通过融合不同尺度的体素特征编码器(VFE)在点水平上并投影到多个伪图像特征映射来解决这一问题。我们进一步提出了一种优于普通VFE的体素特征编码和一种特征融合金字塔网络，以在特征映射层次上聚合多尺度信息。在KITTI基准上的实验表明，在所有现有方法中，单个HVNet获得的mAP效果最好，实时推理速度为31Hz

LiDAR-based Online 3D Video Object Detection with Graph-based Message Passing and Spatiotemporal Transformer Attention | code

现有的基于激光雷达的三维目标检测通常只关注单帧检测，而忽略了连续点云帧中的时空信息。在本文中，我们提出了一个端到端的在线三维视频对象检测器，该检测器对点云序列进行操作。该模型包括空间特征编码组件和时空特征聚合组件。在前者中，提出了一种新的柱状消息传递网络(PMPNet)，对每个离散点云帧进行编码。该方法通过迭代消息传递自适应地从相邻节点处收集柱子节点的信息，有效地扩大了柱子特征的接收域。在后一个组件中，我们提出了一个注意时空转换GRU (AST-GRU)来聚合时空信息，改进了传统的具有注意记忆门限机制的ConvGRU。AST-GRU包含一个空间变换注意(STA)模块和一个时间变换注意(TTA)模块，分别强调前景对象和对齐动态对象。实验结果表明，所提出的三维视频对象检测器在大规模的nuScenes基准上达到了最先进的性能

SESS: Self-Ensembling Semi-Supervised 3D Object Detection | code

现有的基于点云的三维目标检测方法的性能严重依赖于大规模高质量的三维标注。但是，收集这样的注释通常是冗长且昂贵的。半监督学习是一种很好的替代方法，可以缓解数据标注问题，但在三维物体检测中仍未得到很大程度的开发。受近年来自集成技术在半监督图像分类任务中取得成功的启发，我们提出了一种自集成半监督三维目标检测框架SESS。具体地说，我们设计了一个彻底的扰动方案来增强网络对未标记和新的未见数据的泛化。此外，我们提出三种一致性损失来加强两组预测的三维对象建议之间的一致性，以促进对象的结构和语义不变性的学习。在SUN RGB-D和ScanNet数据集上进行的大量实验表明，SESS在诱导和传感半监督三维目标检测方面都是有效的。与最先进的全监督方法相比，我们的SESS仅使用了50%的标记数据，实现了具有竞争力的性能

Joint 3D Instance Segmentation and Object Detection for Autonomous Driving

目前，在自动驾驶(AD)中，大多数三维物体检测框架(无论是基于锚点的还是基于锚点的)都将检测问题看作是一个边界盒(BBox)回归问题。然而，这种简洁的表示不足以探索对象的所有信息。为了解决这一问题，我们提出了一个简单而实用的检测框架来联合预测三维BBox和实例分割。例如，我们提出了空间嵌入(SEs)策略，将所有前景点聚集到它们对应的对象中心。在SE结果的基础上，可以基于一个简单的聚类策略生成对象建议。对于每个集群，只生成一个建议。因此，这里不再需要非极大抑制(NMS)过程。最后，通过我们提出的感知实例的ROI池，BBox通过第二阶段的网络进行细化。在公共KITTI数据集上的实验结果表明，与其他基于特征嵌入的方法相比，本文提出的SEs方法能够显著改善实例分割结果。同时，它也优于KITTI测试基准上的大多数3D物体检测器

其它 | 难样本 | 少样本 | 显著目标检测（3） | 高效率 | 域适应

MnasFPN : Learning Latency-aware Pyramid Architecture for Object Detection on Mobile Devices

尽管在资源受限的环境中，视觉任务的架构搜索取得了巨大的成功，但设备上的目标检测架构的设计大多是手工的。少数的自动搜索工作要么集中在对移动设备不友好的搜索空间，要么不受设备延迟的引导。我们提出了MnasFPN，一个移动友好的检测头搜索空间，并将其与延迟感知架构搜索相结合，生成高效的目标检测模型。当学习MnasFPN头与MobileNetV2体配对时，在像素上以相似的延迟比MobileNetV3+SSDLite性能高出1.8 mAP。它比nasa - fpnlite更精确，速度也快10%。消融研究表明，大部分性能提升来自搜索领域的创新。进一步的研究揭示了搜索空间设计和搜索算法之间的有趣耦合，这使得MnasFPN搜索空间的复杂性是适当的

Camouflflaged Object Detection | code

我们对伪装目标检测(COD)这一新任务进行了全面的研究，其目的是识别无缝嵌入在周围环境中的目标。由于目标目标与背景的高度内在相似性，使得COD比传统的目标检测任务更具挑战性。为了解决这个问题，我们精心收集了一个新的数据集，称为COD10K，其中包含10000张图像，覆盖了各种自然场景中的伪装对象，超过78个对象类别。所有图像都被密集地注释为类别、绑定框、对象/实例级和mattinglevel标签。这个数据集可以作为许多视觉任务的催化剂，如定位、分割和阿尔法抠图等。此外，我们还开发了一个简单而有效的搜索识别网络(Search Identifi- cation Network, SINet)框架。没有任何花哨的东西，SINet在所有测试数据集上优于各种最先进的目标检测基线，使它成为一个健壮的，通用的框架，可以帮助促进未来的COD研究。最后，我们进行了大规模的COD研究，评估了13个前沿模型，提供了一些有趣的发现，并展示了一些潜在的应用。我们的研究为社区提供了在这个新领域进行更多探索的机会

Taking a Deeper Look at Co-Salient Object Detection | homePage

协同显著目标检测(Co-salient object detection, CoSOD)是显著目标检测(SOD)的一个新兴分支，旨在检测出多幅图像中同时存在的显著目标。然而，现有的CoSOD数据集往往存在严重的数据偏差，它假设每组图像包含具有相似视觉外观的显著目标。这种偏差导致了理想的设置，而在现有数据集上训练的模型的有效性，在现实生活中可能会受到损害，其中的相似性通常是语义上或概念上的。为了解决这个问题，我们首先收集一个新的高质量数据集，名为CoSOD3k，其中包含3,316个图像，这些图像分为160组，具有多个级别注释，即类别、边界框、对象和实例级别。CoSOD3k在多样性、难度和可扩展性方面有了显著的飞跃，有利于相关的视觉任务。此外，我们全面总结了34种前沿算法，其中19种算法在现有的4个CoSOD数据集(MSRC、iCoSeg、Image Pair和CoSal2015)和我们的CoSOD3k上进行了基准测试，共61K图像(最大规模)，并报告了组级性能分析。最后，讨论了CoSOD面临的挑战和未来的工作。我们的研究将有力地推动CoSOD社区的发展。基准工具箱和结果可在我们的项目页面上获得

Cross-Domain Document Object Detection: Benchmark Suite and Method | code

文档对象检测(DOD)是将文档页面图像分解为高级语义区域(如图、表、段落)的基础，是实现智能文档编辑和理解等后续任务的基础。DOD仍然是一个具有挑战性的问题，因为文档对象在布局、大小、长宽比、纹理等方面存在显著差异。在实践中出现了另一个挑战，因为大型标记训练数据集只对与目标领域不同的领域可用。我们研究跨域DOD，其中的目标是学习使用来自源域的标记数据和只来自目标域的未标记数据的目标域检测器。来自这两个领域的文档在布局、语言和体裁上可能有很大的不同。我们建立了一个由不同类型PDF文档数据集组成的基准套件，可用于跨领域国防部模型训练和评估。对于每个数据集，我们提供页面图像、边框注释、PDF文件和从PDF文件中提取的呈现层。在此基础上，提出了一种新的跨域DOD模型，该模型结合了特征金字塔对齐(FPA)、区域对齐(RA)和渲染层对齐(RLA)三个新颖的对齐模块，解决了域偏移问题。在基准测试套件上的大量实验证实了这三个模块的有效性，并且提出的方法显著优于基准方法。

Overcoming Classififier Imbalance for Long-tail Object Detection with Balanced Group Softmax | code

利用基于深度学习的模型解决长尾大词汇量对象检测是一项具有挑战性和高要求的任务，但目前研究还不足。在本研究中，我们首次系统地分析了最先进的模型在长尾分布前的不足之处。我们发现，现有的检测方法在数据集严重倾斜时无法对少数镜头类进行建模，这将导致分类器在参数量级上不平衡。将长尾分类模型直接应用于检测框架并不能解决这一问题，因为检测与分类之间存在着内在的差异。在这项工作中，我们提出了一种新的平衡组softmax (BAGS)模块，通过分组训练来平衡检测框架内的分类器。它隐式地调制头类和尾类的训练过程，并确保它们都得到了充分的训练，而不需要对尾类的实例进行任何额外的采样。在最近的长尾大词汇量目标识别基准LVIS上的大量实验表明，我们提出的袋子在目标检测和实例分割方面显著提高了带有各种骨架和框架的检测器的性能。它打破了从长尾图像分类转移而来的所有最先进的方法，建立了新的最先进的方法

Learning from Noisy Anchors for One-stage Object Detection

最先进的目标探测器依赖于回归和分类一个广泛的可能锚点列表，这些锚点根据它们与相应的groundtruth对象的交叉-过联合(IoU)分为正样本和负样本。如此苛刻的IoU分割条件导致二进制标签，这是潜在的噪声和训练的挑战。在本文中，我们提出减少不完全标签分配所引起的噪声，使锚的贡献是由与每个锚相关联的精心构造的清洁度分数动态确定。通过探索回归和分类分支的输出结果，在不产生任何额外计算开销的情况下估计的清洁度分数不仅被用作软标签来监督分类分支的培训，而且还被用于样本重加权因子以改进本地化和分类精度。我们对COCO进行了广泛的实验，并证明，除了其他事情，提出的方法稳步提高视网膜2%与各种骨干

Multi-scale Interactive Network for Salient Object Detection | code

基于深度学习的显著目标检测方法取得了很大进展。然而，显著物体的可变尺度和未知类别一直是一个巨大的挑战。这与多级、多尺度特征的利用密切相关。在本文中，我们提出聚合交互模块来整合相邻层的特征，由于只使用小的上/下采样率，引入较少的噪声。为了从集成的特征中获得更有效的多尺度特征，在每个解码器单元中嵌入了自交互模块。此外，尺度变化引起的类不平衡问题削弱了二元交叉熵损失的影响，导致预测的空间不一致。因此，我们利用一致性增强损失来突出前后背景差异，保持类内一致性。在5个基准数据集上的实验结果表明，该方法在不进行任何后处理的情况下，优于23种现有方法

Large-Scale Object Detection in the Wild from Imbalanced Multi-Labels

在深度学习时代，使用更多的数据进行训练一直是最稳定、最有效的提高性能的方式。开放图像作为目前为止最大的目标检测数据集，给一般和复杂场景下的目标检测带来了巨大的机遇和挑战。然而，由于开放图像数据集的半自动采集和标注管道能够处理庞大的数据规模，存在着对象可能显式或隐式拥有多个标签，标签分布极不均衡的标签相关问题。在本文中，我们对这些标签问题进行了定量分析，并提供了一个简单而有效的解决方案。针对目标检测中的多标签问题，设计了一种并行的softmax算法，并提出了一种混合训练调度的软采样方法来处理标签不平衡问题。总体而言，我们的方法显著提高了3.34个点，在开放图像的公共目标检测测试集上获得了最好的单个模型(mAP为60.90)。我们的集合结果达到67.17 mAP，比Open Images public test 2018的最佳结果高出4.29分

Incremental Few-Shot Object Detection

现有的目标检测方法大多依赖于每个类有大量标记训练样本的可用性，以及批量离线模型训练。这些要求极大地限制了它们的可伸缩性，使之只能适应具有有限标记训练数据的新类。我们提出了一项研究，旨在通过考虑增量少镜头检测(iFSD)问题设置来超越这些限制，在这个问题设置中，新类必须增量地注册(无需重新访问基类)，并且只有少量示例。为此，我们提出了开放中心网(ONCE)，一个检测器，设计用于增量学习，以检测新的类对象的例子很少。这是通过将CentreNet检测器优雅地适应较少镜头的学习场景，并将元学习用于注册新类的特定于类的代码生成器模型来实现的。一旦充分尊重增量学习范式，新的类注册只需要一个单一的向前通过少量射击训练样本，没有访问基类，因此适合部署在嵌入式设备上。在标准物体检测和时尚地标检测任务上进行的大量实验首次显示了iFSD的可行性，开辟了一条有趣而又非常重要的研究方向

Noise-Aware Fully Webly Supervised Object Detection | code

我们研究了在web上使用唯一的图像级别标签学习对象检测器的新兴任务，而不需要任何其他监督，比如精确的注释或来自良好注释的基准数据集的附加图像。这样的任务被称为全网络监督的目标检测，由于web上的图像级标签总是有噪声，导致学习的检测器性能较差，因此具有极大的挑战性。在本文中，我们提出了一个端到端框架来共同学习网络监督检测器，减少噪声标签的负面影响。这类噪声具有不均匀性，又分为背景噪声和前景噪声两类。针对背景噪声问题，提出了一种融合弱监督检测的残差学习结构，对背景噪声进行分解，建立干净数据模型。为了明确地学习干净数据与噪声标签之间的剩余特征，我们进一步提出了一种空间敏感的熵准则，利用检测结果的条件分布来估计背景类别为噪声的置信度。针对前景噪声，提出了一种压缩混合学习方法，在保持训练数据多样性的同时，抑制错误标记图像中的前景噪声信号。我们在热门的基准数据集上通过训练web图像的检测器来评估所提出的方法，这些web图像由来自照片共享网站的相应类别标签检索。大量的实验表明，我们的方法取得了显著的改进，比现有的最先进的方法

EffificientDet: Scalable and Effificient Object Detection | code

模型效率在计算机视觉中变得越来越重要。在本文中，我们系统地研究了用于目标检测的神经网络体系结构的设计选择，并提出了几个关键的优化方法来提高效率。首先，我们提出了一种加权双向特征金字塔网络(BiFPN)，该网络可实现简单、快速的多尺度特征融合;其次，我们提出了一种复合尺度方法，对所有主干网络、特征网络和盒/类预测网络同时进行分辨率、深度和宽度的统一尺度。基于这些优化和EfficientNet骨架，我们开发了一个新的目标检测器家族，称为EfficientDet，它在广泛的资源限制范围内始终实现比现有技术更好的效率。特别是，在单型号和单尺度下，我们的EfficientDetD7在COCO test-dev上达到了最先进的52.2 AP, 52M参数和325B FLOPs1，比以前的探测器小4倍9倍，触发器减少了13倍42倍

Mixture Dense Regression for Object Detection and Human Pose Estimation

混合模型是一种公认的学习方法，在计算机视觉中，它大多被应用于逆问题或定义不清的问题。然而，它们是通用的分而治之技术，以数据驱动的方式将输入空间划分为相对同质的子集。不仅定义模糊的问题，而且定义良好的复杂问题都应从中受益。为此，我们设计了一个使用混合密度网络的空间回归框架。实现了目标检测和人体姿态估计的框架。对于这两种任务，混合模型都能产生更高的精度，并将输入空间划分为可解释的模式。在目标检测中，混合分量主要关注目标尺度，分量的分布与地面真值的分布密切相关。这实际上减少了对多尺度测试的需求，提供了一个卓越的速度和准确性的权衡。在人体姿态估计方面，混合模型根据视点和不确定性对数据进行划分，即前视图和后视图，后视图具有较高的不确定性。我们在MS COCO数据集上进行实验，没有遇到任何模式崩溃

Label Decoupling Framework for Salient Object Detection | code

为了获得更精确的显著性图，目前的方法主要集中于从全卷积网络(fully convolutional network, FCN)中提取多层特征并引入边缘信息作为辅助监督。虽然已经取得了显著的进展，但我们观察到，像素离边缘越近，预测就越困难，因为边缘像素的分布非常不平衡。为了解决这个问题，我们提出了一个标签解耦框架(LDF)，它包括一个标签解耦过程(LD)和一个特征交互网络(FIN)。LD将原始的显著性映射显式地分解为body map和detail map，其中body map集中于物体的中心区域，detail map集中于边缘周围区域。细节地图工作得更好，因为它比传统的边缘管理涉及更多的像素。与显著性图不同的是，体图忽略了边缘像素，只关注中心区域。这成功地避免了训练过程中边缘像素的干扰。因此，我们在FIN中采用两个分支分别处理body map和detail map。特征交互(Feature interaction, FI)的目的是融合两个互补分支来预测显著性映射，然后利用显著性映射对两个分支进行细化。这种迭代细化有助于学习更好的表示和更精确的显著性映射。在6个基准数据集上的综合实验表明，在不同的评价指标上，LDF的性能优于现有的评价方法

Exploring Categorical Regularization for Domain Adaptive Object Detection | code

在本文中，我们处理领域自适应目标检测问题，其中主要的挑战在于源领域和目标领域之间的显著领域间隙。以前的工作试图简单地对齐图像级和实例级的转移，以最终最小化域差异。然而，它们仍然忽略了跨域匹配关键图像区域和重要实例，这将严重影响域偏移缓解。在这项工作中，我们提出了一个简单但有效的分类规则框架来缓解这一问题。它可以作为一种即插即用的组件应用于一系列领域自适应快速R-CNN方法，这些方法在处理领域自适应检测方面非常突出。具体来说，通过在检测主干上集成一个图像级多标签分类器，由于分类方式的定位能力较弱，我们可以得到与类别信息对应的稀疏但关键的图像区域。同时，在实例级，我们利用图像级预测(由分类器)和实例级预测(由检测头)之间的分类一致性作为正则化因子，自动搜索目标域的硬对齐实例。在不同的领域漂移场景下的大量实验表明，我们的方法比原来的领域自适应更快的R-CNN检测器有显著的性能增益。此外，定性可视化和分析可以证明我们的方法在针对领域适应的关键区域/实例上的能力

Cross-domain Object Detection through Coarse-to-Fine Feature Adaptation

近年来，基于深度学习的目标检测取得了很大的进展。然而，由于域移位问题，将现成的检测器应用到看不见的域会导致显著的性能下降。针对这一问题，本文提出了一种基于粗到细特征自适应的跨域目标检测方法。在粗粒度阶段，不同于文献中使用的粗糙图像级或实例级特征对齐，采用注意机制提取前景区域，并在共同特征空间中通过多层对抗学习，根据其边缘分布进行对齐。在细粒度阶段，通过最小化同一类别不同领域全局原型之间的距离，对前景进行条件分布比对;由于这种从粗到细的特征自适应，前景区域的领域知识可以有效地传递。在各种跨域检测场景中进行了大量的实验。结果是最先进的，证明了广泛的适用性和有效性，提出的方法

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Monodyee/article/detail/136273