当前位置:   article > 正文

【CV论文精读】【YOLOv9】YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

yolov9: learning what you want to learn using programmable gradient informat

YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
YOLOv9:使用可编程梯度信息学习您想要学习的内容

在这里插入图片描述

0.论文摘要

今天的深度学习方法侧重于如何设计最合适的目标函数,使模型的预测结果最接近地面真实。同时,必须设计一个适当的架构,以便于获取足够的预测信息。现有方法忽略了一个事实,即当输入数据进行逐层特征提取和空间变换时,会丢失大量信息。本文将深入研究数据在深度网络中传输时数据丢失的重要问题,即信息瓶颈和可逆函数。我们提出了可编程梯度信息(PGI)的概念,以应对深度网络实现多个目标所需的各种变化。PGI可以为目标任务计算目标函数提供完整的输入信息,从而获得可靠的梯度信息来更新网络权重。此外,设计了一种新的基于梯度路径规划的轻量级网络体系结构——广义高效层聚合网络(GELAN)。GELAN的架构证实了PGI在轻量级模型上获得了卓越的结果。我们在基于MS COCO数据集的目标检测上验证了所提出的GELAN和PGI。结果表明,与基于深度卷积开发的最新方法相比,GELAN仅使用传统卷积算子来实现更好的参数利用。PGI可用于从轻型到大型的各种型号。它可用于获得完整的信息,因此从头训练模型可以获得比使用大型数据集预训练的最先进模型更好的结果,比较结果如图1所示。
在这里插入图片描述
图1。MS COCO数据集上实时目标检测器的比较。基于GELAN和PGI的目标检测方法在目标检测性能方面超过了所有以前的从头训练方法。在准确性方面,新方法优于用大数据集预训练的RT DETR[43],并且在参数利用方面也优于基于深度卷积的设计YOLO MS[7]。

代码
YOLOv9

1.研究背景

基于深度学习的模型在各个领域,如计算机视觉、语言处理和语音识别,都表现出比过去的人工智能系统好得多的性能。近年来,深度学习领域研究主要集中在如何开发更强大的系统架构和学习方法,如CNN[21–23, 42, 55, 71, 72],Transformers [8, 9, 40, 41, 60, 69, 70],Perceivers[26, 26, 32, 52, 56, 81, 81],Mambas [17, 38, 80]。此外,一些研究人员试图开发更一般的目标函数,如损失函数[5,45,46,50,77,78],标签分配[10,12,33,67,79]和辅助监督[18,20,24,28,29,51,54,68,76]。上述研究都试图精确地找到输入任务和目标任务之间的映射关系。然而,大多数过去的方法忽略了输入数据在前馈过程中可能具有不可忽略的信息损失量。这种信息的损失可能导致有偏差的梯度流,随后用于更新模型。上述问题会导致深度网络在目标和输入之间建立不正确的关联,导致训练好的模型产生不正确的预测。
在深度网络中,前馈过程中输入数据丢失信息的现象俗称信息瓶颈[59],其原理图如图2所示。
在这里插入图片描述
图2。不同网络架构的随机初始权重输出特征图的可视化结果:(a)输入图像,(b)PlainNet,(c)ResNet,(d)CSPNet,和(e)提出的GELAN。从图中可以看出,在不同的架构中,提供给目标函数计算损失的信息都有不同程度的丢失,我们的架构可以保留最完整的信息,为计算目标函数提供最可靠的梯度信息。

目前可以缓解这种现象的主要方法有:(1)使用可逆架构[3,16,19]:这种方法主要使用重复的输入数据,并以显式的方式维护输入数据的信息;(2)掩蔽建模的使用[1,6,9,27,71,73]:主要利用重建损失,采用隐式方式最大化提取的特征,保留输入信息;以及(3)深度监督概念的引入[28,51,54,68]:利用没有丢失太多重要信息的浅层特征,预先建立从特征到目标的映射,保证重要信息可以传递到更深层。然而,上述方法在训练过程和推理过程中都有不同的缺点。例如,可逆架构需要额外的层来组合重复馈送的输入数据,这将显著增加推理成本。此外,由于输入数据层到输出层不能有太深的路径,这一限制将使得在训练过程中难以对高阶语义信息进行建模。对于掩蔽建模,其重建损失有时会与目标损失相冲突。此外,大多数掩码机制还会产生与数据的不正确关联。对于深层监督机制,会产生误差积累,如果浅层监督在训练过程中丢失了信息,后续层将无法检索到所需的信息。上述现象在困难任务和小模型上会更显著。

为了解决上述问题,我们提出了一个新的概念,即可编程梯度信息(PGI)。其思想是通过辅助可逆分支生成可靠的梯度,使深层特征仍然保持执行目标任务的关键特征。辅助可逆分支的设计可以避免集成多路径特征的传统深度监控过程可能导致的语义丢失。换句话说,我们在不同的语义层次上对梯度信息传播进行编程,从而获得最佳的训练结果。PGI的可逆体系结构建立在辅助分支上,因此不需要额外的成本。由于PGI可以自由选择适合目标任务的损失函数,因此也克服了掩模建模遇到的问题。所提出的PGI机制可以应用于各种规模的深度神经网络,并且比深度监督机制更通用,深度监督机制只适用于非常深度的神经网络。

本文还基于ELAN[65]设计了广义ELAN(GELAN),GELAN的设计同时考虑了参数的数量、计算复杂度、准确性和推理速度。这种设计允许用户为不同的推理设备任意选择合适的计算块。我们将提出的PGI和GELAN结合起来,设计了新一代YOLO系列目标检测系统,我们称之为YOLOv9。我们使用MS COCO数据集进行实验,实验结果验证了我们提出的YOLOv9在所有比较中取得了最高的性能。

本文的主要工作如下:
1。我们从可逆函数的角度对现有的深度神经网络架构进行了理论分析,通过这个过程成功地解释了许多过去难以解释的现象。在此基础上设计了PGI和辅助可逆支路,取得了良好的效果。
2.我们设计的PGI解决了深度监督只能用于深度极深的神经网络体系结构的问题,从而使新的轻量级体系结构真正应用于日常生活中。
3.与基于最先进技术的深度卷积设计相比,我们设计的GELAN仅使用常规卷积实现了更高的参数利用率,同时显示出轻便、快速、精确的巨大优势。
4.结合所提出的PGI和GELAN,YOLOv9在MS COCO数据集上的目标检测性能在各个方面都大大超过了现有的实时目标检测器。

2.相关工作

2.1 实时目标检测

目前主流的实时目标检测器是YOLO系列[2, 7, 13–15, 25, 30, 31, 47–49, 61–63, 74, 75],这些模型大多使用CSPNet[64]或ELAN[65]及其变体作为主要计算单元。在特征整合方面,通常使用改进的PAN[37]或FPN[35]作为工具,然后使用改进的YOLOv3头[49]或FCOS头[57,58]作为预测头。最近也提出了一些实时物体探测器,如RT DETR[43],其基础是DETR[4]。然而,由于DETR系列目标检测器在没有相应的领域预训练模型的情况下极难应用于新的领域,因此目前应用最广泛的实时目标检测器仍然是YOLO系列。本文选择YOLOv7[63]作为开发所提出方法的基础,YOLOv7[63]已被证明在各种计算机视觉任务和各种场景中是有效的。我们使用GELAN来改进架构和提出的PGI的训练过程。上述新方法使所提出的YOLOv9成为新一代顶级实时目标检测器。

2.2 可逆架构

可逆架构[3,16,19]的运算单元必须保持可逆转换的特性,这样才能保证运算单元各层的输出特征图能够保留完整的原始信息。以前,RevCol[3]将传统的可逆单位推广到多个层次,这样做可以扩展不同层单位表达的语义层次。通过对各种神经网络结构的文献综述,我们发现有许多高性能的结构具有不同程度的可逆性。例如,Res2Net模块[11]以分层的方式将不同的输入分区与下一个分区组合在一起,并在向后传递之前将所有转换后的分区连接起来。CBNet[34,39]通过复合主干重新引入原始输入数据,获得完整的原始信息,并通过各种合成方法获得不同级别的多级可逆信息。这些网络体系结构通常具有很好的参数利用率,但是额外的复合层导致推理速度较慢。DynamicDet[36]结合了CBNet[34]和高效实时物体检测器YOLOv7[63],在速度、参数数量和精度之间实现了非常好的权衡。本文介绍了DynamicDet体系结构作为设计可逆分支的基础。此外,还将可逆信息进一步引入到所提出的PGI中。所提出的新架构在推理过程中不需要额外的连接,因此它可以完全保留速度、参数量和准确性的优势。

2.3 辅助监督

深度监督[28,54,68]是最常见的辅助监督方法,它通过在中间层插入额外的预测层来执行训练。尤其是应用多层解码器引入的基于Transformer model的方法是最常见的一种。另一种常见的辅助监督方法是利用相关元信息来指导中间层生成的特征图,使其具有目标任务所需的属性[18,20,24,29,76]。这种类型的例子包括使用分割损失或深度损失来增强对象检测器的精度。最近文献[53,67,82]中有很多报道,使用不同的标签分配方法生成不同的辅助监督机制,在加快模型收敛速度的同时提高鲁棒性。但是辅助监督机制通常只适用于大型模型,所以当应用于轻量级模型时,很容易造成参数化不足的现象,使性能变差。我们提出的PGI设计了一种重新编程多级语义信息的方法,这种设计允许轻量级模型也受益于辅助监督机制。

3.问题陈述

通常,人们将深度神经网络收敛问题的困难归因于梯度消失或梯度饱和等因素,而这些现象在传统的深度神经网络中确实存在。然而,现代深度神经网络已经通过设计各种归一化和激活函数,从根本上解决了上述问题。尽管如此,深度神经网络仍然存在收敛速度慢或收敛结果差的问题。在本文中,我们进一步探讨了上述问题的本质。通过对信息瓶颈的深入分析,我们推断出问题产生的根本原因是最初来自一个非常深的网络的初始梯度在传输后不久就丢失了大量实现目标所需的信息。为了证实这一推论,我们用初始权重前馈不同架构的深度网络,然后在图2中可视化和说明它们。显然,PlainNet已经丢失了大量深层目标检测所需的重要信息。至于ResNet、CSPNet、GELAN能保留的重要信息比例,确实与训练后能获得的准确度呈正相关。我们进一步设计了基于可逆网络的方法来解决上述问题的原因。在这一节中,我们将详细阐述我们对信息瓶颈原理和可逆函数的分析。

3.1 信息瓶颈原理

根据信息瓶颈原理,我们知道数据X在进行转换时可能会造成信息丢失,如等式1以下:
在这里插入图片描述

其中 I I I表示互信息, f f f g g g是变换函数, θ θ θ φ φ φ分别是 f f f g g g的参数。

在深度神经网络中, f θ ( ⋅ ) f_θ(·) fθ() g φ ( ⋅ ) g_φ(·) gφ()分别表示深度神经网络中两个连续层的运算。来自公式1我们可以预测,随着网络层数的加深,原始数据将更容易丢失。然而,深度神经网络的参数是基于网络的输出以及给定的目标,然后通过计算损失函数生成新的梯度后更新网络。可以想象,更深的神经网络的输出不太能够保留关于预测目标的完整信息。这将使得在网络训练过程中使用不完全信息成为可能,从而导致梯度不可靠和收敛性差。
解决上述问题的一种方法是直接增加模型的大小。当我们使用大量的参数来构建一个模型时,它更有能力对数据进行更完整的转换。上述方法允许即使信息在数据前馈过程中丢失,仍然有机会保留足够的信息来执行到目标的映射。上述现象解释了为什么在大多数现代模型中宽度比深度更重要。然而,上述结论并不能从根本上解决超深度神经网络中梯度不可靠的问题。下面,我们将介绍如何使用可逆函数解决问题,并进行相关分析。

3.2 可逆函数

当一个函数r有一个逆变换函数v时,我们称这个函数为可逆函数,如公式2.
在这里插入图片描述
其中 φ φ φ ζ ζ ζ分别是 r r r v v v的参数。数据X通过可逆函数转换而不丢失信息,如等式3.

在这里插入图片描述
当网络的变换函数由可逆函数组成时,可以获得更可靠的梯度来更新模型。现在流行的深度学习方法几乎都是符合可逆性的架构,比如等式4.

在这里插入图片描述

其中l表示预操作ResNet的第l层,f是第l层的变换函数。PreAct ResNet[22]以显式方式将原始数据X重复传递给后续层。虽然这样的设计可以让一千层以上的深度神经网络收敛得很好,但是破坏了我们需要深度神经网络的一个重要原因。也就是说,对于困难的问题,我们很难直接找到简单的映射函数将数据映射到目标。这也解释了为什么当层数较小时,PreAct ResNet的性能比ResNet[21]差。
此外,我们尝试使用屏蔽建模,使transformer模型实现重大突破。我们使用近似方法,如等式5、尝试寻找r的逆变换v,使变换后的特征能够利用稀疏特征保留足够的信息。等式5的形式具体如下:
在这里插入图片描述

其中M是动态二进制掩码。通常用于执行上述任务的其他方法是扩散模型和变分自动编码器,它们都具有寻找反函数的功能。然而,当我们将上述方法应用于轻量级模型时,会有缺陷,因为轻量级模型将被大量原始数据参数化。由于上述原因,将数据X映射到目标Y的重要信息 I ( Y , X ) I(Y, X) I(Y,X)也会面临同样的问题。对于这个问题,我们将使用信息瓶颈的概念来探讨它[59]。信息瓶颈公式如下:
在这里插入图片描述
一般来说, I ( Y , X ) I(Y, X) I(Y,X)只会占据 I ( X , X ) I(X, X) I(X,X)的很小一部分。然而,它对目标任务至关重要。因此,即使前馈阶段丢失的信息量不显著,只要覆盖了 I ( Y , X ) I(Y, X) I(Y,X),训练效果就会受到很大影响。由于轻量级模型本身处于参数化不足的状态,在前馈阶段很容易丢失大量重要信息。因此,我们对轻量级模型的目标是如何从 I ( X , X ) I(X, X) I(X,X)中准确地过滤 I ( Y , X ) I(Y, X) I(Y,X)。至于完全保留X的信息,那是很难实现的。基于以上分析,我们希望提出一种新的深度神经网络训练方法,不仅可以生成可靠的梯度来更新模型,而且适用于浅层和轻量级神经网络。

4.方法

4.1 可编程梯度信息

为了解决上述问题,我们提出了一种新的辅助监管框架,称为可编程梯度信息(PGI),如图3(d)所示。PGI主要包括三个组成部分,即(1)主分支,(2)辅助可逆分支,(3)多级辅助信息。从图3(d)中我们看到,PGI的推理过程只使用主分支,因此不需要任何额外的推理成本。至于其他两个组件,它们用于解决或减缓深度学习方法中的几个重要问题。其中,辅助可逆分支的设计是为了解决神经网络的深化所带来的问题。网络的深化会导致信息瓶颈,这将使损失函数无法生成可靠的梯度。对于多级辅助信息,设计用于处理深度监控带来的误差积累问题,特别是针对多预测分支的架构和轻量级模型。接下来,我们将逐步介绍这两个组件。
在这里插入图片描述
图3。PGI和相关的网络体系结构和方法。(a)路径聚合网络(PAN))[37],(b)可逆列(RevCol)[3],(c)常规深度监督,以及(d)我们提出的可编程梯度信息(PGI)。PGI主要由三部分组成:(1)主分支:用于推理的架构,(2)辅助可逆分支:生成可靠的梯度,为主分支提供反向传输,以及(3)多级辅助信息:控制主分支学习可规划的多级语义信息。

4.1.1 辅助可逆支路

在PGI中,我们提出了辅助可逆分支来生成可靠的梯度和更新网络参数。通过提供从数据到目标的映射信息,损失函数可以提供指导,并避免从不完全前馈特征中发现与目标不太相关的错误相关性的可能性。我们提出了通过引入可逆体系结构来维护完整信息,但是在可逆体系结构中增加主分支会消耗大量的推理成本。我们分析了图3(b)的架构,发现当从深层到浅层添加额外的连接时,推理时间将增加20%。当我们反复将输入数据添加到网络的高分辨率计算层(黄框)时,推理时间甚至超过两倍。
由于我们的目标是使用可逆架构来获得可靠的梯度,“可逆”并不是推理阶段的唯一必要条件。鉴于此,我们将可逆分支视为深度监管分支的扩展,然后设计辅助可逆分支,如图3(d)所示。对于由于信息瓶颈而丢失重要信息的主分支深层特征,它们将能够从辅助可逆分支接收可靠的梯度信息。这些梯度信息将驱动参数学习,以帮助提取正确和重要的信息,并且上述动作可以使主分支获得对目标任务更有效的特征。此外,可逆架构在浅层网络上的性能比在一般网络上差,因为复杂的任务需要在更深的网络中进行转换。我们提出的方法不强迫主分支保留完整的原始信息,而是通过辅助监督机制生成有用的梯度来更新它。这种设计的优点是,所提出的方法也可以应用于较浅的网络。
最后,由于在推理阶段可以去除辅助可逆分支,因此可以保留原始网络的推理能力。我们也可以选择PGI中的任何可逆架构来扮演辅助可逆分支的角色。

4.1.2 多层辅助信息

在本节中,我们将讨论多级辅助信息是如何工作的。包括多个预测分支的深度监管架构如图3(c)所示。对于对象检测,不同的特征金字塔可以用于执行不同的任务,例如它们可以一起检测不同大小的对象。因此,连接到深度监控分支后,会引导浅层特征学习小物体检测所需的特征,此时系统会将其他大小物体的位置作为背景。然而,上述行为将导致深层特征金字塔丢失大量预测目标对象所需的信息。关于这个问题,我们认为每个特征金字塔需要接收关于所有目标对象的信息,以便后续主分支可以保留完整的信息来学习对各种目标的预测。
多级辅助信息的概念是在辅助监督的特征金字塔层次层和主分支之间插入一个集成网络,然后使用它来组合来自不同预测头的返回梯度,如图3(d)所示。多级辅助信息则是将包含所有目标对象的梯度信息聚合起来,传递给主分支,然后更新参数。此时,主分支的特征金字塔层次结构的特征将不会被某个特定对象的信息所支配。因此,我们的方法可以缓解深度监管中的信息中断问题。此外,任何综合网络都可以用于多级辅助信息。因此,我们可以规划所需的语义级别来指导不同规模的网络架构的学习。

4.2 广义ELAN

在本节中,我们将描述提议的新网络架构——GELAN。通过结合采用梯度路径规划设计的两种神经网络架构CSPNet[64]和ELAN[65],我们设计了考虑轻量级、推理速度和准确性的广义高效层聚合网络(GELAN)。它的总体架构如图4所示。我们将最初仅使用卷积层堆叠的ELAN[65]的能力推广到可以使用任何计算块的新架构。
在这里插入图片描述

图4。GELAN的体系结构:(a)CSPNet[64],(b)ELAN[65],和(c)提议的GELAN。我们模仿CSPNet,将ELAN扩展到可以支持任何计算块的GELAN。

5.实验

5.1 实验设置

我们用MS COCO数据集验证了所提出的方法。所有实验设置都遵循YOLOv7 AF[63],而数据集是MS COCO 2017分裂。我们提到的所有模型都是使用从零开始训练的策略训练的,训练的总次数是500个epoch。在设置学习速率时,我们在前三个时期使用线性预热,随后的时期根据模型尺度设置相应的衰减方式。至于过去的15个时期,我们关闭了mosaic数据增强。有关更多设置,请参考附录。

5.2 实现细节

我们分别基于YOLOv7[63]和动态YOLOv7[36]构建了YOLOv9的通用版和扩展版。在网络架构的设计中,我们使用CSPNet块[64]和计划的RepConv[63]作为计算块,用GELAN替换了ELAN[65]。我们还简化了下采样模块,优化了无锚预测头。至于PGI的辅助损耗部分,我们完全遵循YOLOv7的辅助头设置。详情请见附录。

5.3 与SOTA的比较

表1列出了我们提出的YOLOv9与其他从头训练实时对象检测器的比较。总的来说,现有方法中性能最好的方法是轻型模型的YOLO MS-S[7],中型模型的YOLO MS[7],通用模型的YOLOv7 AF[63]和大型模型的YOLOv8-X[15]。与轻量级和中型型号YOLO MS[7]相比,YOLOv9的参数减少了约10%,计算量减少了5-15%,但AP仍有0.4-0.6%的改进。与YOLOv7 AF相比,YOLOv9-C的参数减少了42%,计算量减少了21%,但实现了相同的AP(53%)。与YOLOv8-X相比,YOLOv9-X的参数减少了15%,计算量减少了25%,AP显著提高了1.7%。上述比较结果表明,与现有方法相比,我们提出的YOLOv9在各个方面都有显著改进。
在这里插入图片描述
图5。最先进的实时目标检测器的比较。参与比较的方法都使用ImageNet作为预训练权重,包括RT DETR[43]、RTMDet[44]、PP-YOLOE[74]等。使用从头开始训练方法的YOLOv9明显优于其他方法的性能。

至于计算量,现有的最佳模型从最小到最大分别是YOLO MS[7]、PP YOLOE[74]和RT DETR[43]。从图5中,我们可以看到YOLOv9在计算复杂度方面远远优于从头开始训练的方法。此外,如果与基于深度卷积和基于ImageNet的预训练模型相比,YOLOv9也非常有竞争力。

5.4 消融实验

5.4.1 Generalized ELAN

对于GELAN,我们首先对计算块进行消融研究。我们分别使用Res块[21]、暗块[49]和CSP块[64]进行实验。表2显示,在用不同的计算块替换ELAN中的卷积层后,系统可以保持良好的性能。用户确实可以自由地替换计算块,并在各自的推理设备上使用它们。在不同的计算块替换中,CSP块表现特别好。它不仅减少了参数和计算量,而且使AP提高了0.7%。因此,我们选择CSPELAN作为YOLOv9中GELAN的组成单位。
在这里插入图片描述
接下来,我们在不同大小的GELAN上进行ELAN块深度和CSP块深度实验,并在表3中显示结果。我们可以看到,当ELAN的深度从1增加到2时,精度显著提高。但是当深度大于等于2时,无论是提高ELAN深度还是CSP深度,参数的数量、计算量和精度总是呈线性关系。这意味着GELAN对深度不敏感。换句话说,用户可以任意组合GELAN中的组件来设计网络架构,无需特殊设计就能拥有性能稳定的模型。在表3中,对于YOLOv9-{S,M,C},我们将ELAN深度和CSP深度的配对设置为{{2,3},{2,1},{2,1}}。

在这里插入图片描述

5.4.2 可编程梯度信息

在PGI方面,我们分别对主干和颈部的辅助可逆分支和多水平辅助信息进行了消融研究。我们设计了辅助可逆分支ICN,利用DHLC[34]连锁获得多级可逆信息。对于多层次的辅助信息,我们使用FPN和PAN进行消融研究,PFH的作用相当于传统的深度监督。表4列出了所有实验的结果。从表4中,我们可以看到PFH只在深度模型中有效,而我们提出的PGI可以在不同的组合下提高精度。特别是当使用ICN时,我们得到了稳定和更好的结果。我们还尝试将YOLOv7[63]中提出的头引导分配应用于PGI的辅助监督,并取得了更好的性能。
在这里插入图片描述
我们在各种规模的模型上进一步实现了PGI和深度监督的概念,并比较了结果,这些结果如表5所示。正如开头所分析的,引入深度监督将导致浅层模型准确性的损失。对于一般模型,引入深度监管会造成性能不稳定,深度监管的设计理念只能在极其深度的模型中带来收益。所提出的PGI可以有效地处理信息瓶颈和信息断裂等问题,并能全面提高不同规模模型的精度。PGI的概念带来了两个有价值的贡献。一是使辅助监督方法适用于浅层模型,二是使深层模型训练过程获得更可靠的梯度。这些梯度使深度模型能够使用更准确的信息来建立数据和目标之间的正确相关性。
在这里插入图片描述

最后,我们在表中显示了从基线YOLOv7到YOLOv9E逐渐增加成分的结果。我们提出的GELAN和PGI对模型进行了全面的改进。
在这里插入图片描述

5.5 可视化

本节将探讨信息瓶颈问题并将其可视化。此外,我们还将可视化所提出的PGI如何使用可靠的梯度来找到数据和目标之间的正确相关性。在图6中,我们展示了在不同架构下通过使用随机初始权重作为前馈获得的特征图的可视化结果。我们可以看到,随着层数的增加,所有架构的原始信息逐渐减少。例如,在PlainNet的第50层,很难看到物体的位置,所有可区分的特征在第100层都会丢失。至于ResNet,虽然在第50层仍然可以看到物体的位置,但边界信息已经丢失。当深度达到第100层时,整个图像变得模糊。CSPNet和提出的GELAN都表现得非常好,并且它们都可以保持支持清晰识别对象的特征,直到第200层。在比较中,GELAN的结果更稳定,边界信息更清晰。
在这里插入图片描述

图6。通过不同深度的PlainNet、ResNet、CSPNet和GELAN的随机初始权重输出的特征图(可视化结果)。在100层之后,ResNet开始产生足以混淆对象信息的前馈输出。我们提出的GELAN在第150层之前仍然可以保留相当完整的信息,并且在第200层之前仍然具有足够的区分性。

图7用于显示PGI在训练过程中是否可以提供更可靠的梯度,以便用于更新的参数可以有效地捕捉输入数据和目标之间的关系。图7显示了泛偏置预热中GELAN和YOLOv9(GELAN+PGI)的特征图的可视化结果。从图7(b)和(c)的比较中,我们可以清楚地看到,PGI准确而简洁地捕捉到了包含对象的区域。至于不使用PGI的GELAN,我们发现它在检测物体边界时有发散,在一些背景区域也产生了意想不到的反应。该实验证实了PGI确实可以提供更好的梯度来更新参数,并使主分支的前馈级保留更重要的特征。

在这里插入图片描述
图7。经过一个时期的偏差预热后,GELAN和YOLOv9(GELAN+PGI)的PAN特征图(可视化结果)。GELAN原本有一些发散,但在添加了PGI的可逆分支后,它更有能力聚焦于目标对象。

6.总结

在本文中,我们提出使用PGI来解决信息瓶颈问题和深度监督机制不适合轻量级神经网络的问题。我们设计了GELAN,一个高效和轻量级的神经网络。在目标检测方面,GELAN在不同的计算块和深度设置下都具有强大而稳定的性能。它确实可以广泛扩展成适用于各种推理设备的模型。对于以上两个问题,PGI的引入让轻量级模型和深度模型都实现了精确度的显著提升。由PGI和GELAN联合设计的YOLOv9显示出强大的竞争力。其出色的设计使深度模型与YOLOv8相比,参数数量减少了49%,计算量减少了43%,但在MS COCO数据集上仍有0.6%的AP改进。

7.引用文献

[1] Hangbo Bao, Li Dong, Songhao Piao, and Furu Wei. BEiT: BERT pre-training of image transformers. In International Conference on Learning Representations (ICLR), 2022. 2

  • [2] Alexey Bochkovskiy, Chien-Yao Wang, and HongYuan Mark Liao. YOLOv4: Optimal speed and accuracy of object detection. arXiv preprint arXiv:2004.10934, 2020. 3
  • [3] Yuxuan Cai, Yizhuang Zhou, Qi Han, Jianjian Sun, Xiangwen Kong, Jun Li, and Xiangyu Zhang. Reversible column networks. In International Conference on Learning Representations (ICLR), 2023. 2, 3, 5
  • [4] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. Endto-end object detection with transformers. In Proceedings of the European Conference on Computer Vision (ECCV), pages 213–229, 2020. 3
  • [5] Kean Chen, Weiyao Lin, Jianguo Li, John See, Ji Wang, and Junni Zou. AP-loss for accurate one-stage object detection. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 43(11):3782–3798, 2020. 1
  • [6] Yabo Chen, Yuchen Liu, Dongsheng Jiang, Xiaopeng Zhang, Wenrui Dai, Hongkai Xiong, and Qi Tian. SdAE: Selfdistillated masked autoencoder. In Proceedings of the European Conference on Computer Vision (ECCV), pages 108124, 2022. 2
  • [7] Yuming Chen, Xinbin Yuan, Ruiqi Wu, Jiabao Wang, Qibin Hou, and Ming-Ming Cheng. YOLO-MS: rethinking multiscale representation learning for real-time object detection. arXiv preprint arXiv:2308.05480, 2023. 1, 3, 7, 8
  • [8] Mingyu Ding, Bin Xiao, Noel Codella, Ping Luo, Jingdong Wang, and Lu Yuan. DaVIT: Dual attention vision transformers. In Proceedings of the European Conference on Computer Vision (ECCV), pages 74–92, 2022. 1
  • [9] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations (ICLR), 2021. 1, 2
  • [10] Chengjian Feng, Yujie Zhong, Yu Gao, Matthew R Scott, and Weilin Huang. TOOD: Task-aligned one-stage object detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 3490–3499, 2021. 1
  • [11] Shang-Hua Gao, Ming-Ming Cheng, Kai Zhao, Xin-Yu Zhang, Ming-Hsuan Yang, and Philip Torr. Res2Net: A new multi-scale backbone architecture. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 43(2):652–662, 2019. 3
  • [12] Zheng Ge, Songtao Liu, Zeming Li, Osamu Yoshie, and Jian Sun. OTA: Optimal transport assignment for object detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 303312, 2021. 1
  • [13] Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, and Jian Sun. YOLOX: Exceeding YOLO series in 2021. arXiv preprint arXiv:2107.08430, 2021. 3
  • [14] Jocher Glenn. YOLOv5 release v7.0. https://github. com/ultralytics/yolov5/releases/tag/v7. 0, 2022. 3, 7
  • [15] Jocher Glenn. YOLOv8 release v8.1.0. https : / / github . com / ultralytics / ultralytics / releases/tag/v8.1.0, 2024. 3, 7
  • [16] Aidan N Gomez, Mengye Ren, Raquel Urtasun, and Roger B Grosse. The reversible residual network: Backpropagation without storing activations. Advances in Neural Information Processing Systems (NeurIPS), 2017. 2, 3
  • [17] Albert Gu and Tri Dao. Mamba: Linear-time sequence modeling with selective state spaces. arXiv preprint arXiv:2312.00752, 2023. 1
  • [18] Chaoxu Guo, Bin Fan, Qian Zhang, Shiming Xiang, and Chunhong Pan. AugFPN: Improving multi-scale feature learning for object detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 12595–12604, 2020. 1, 3
  • [19] Qi Han, Yuxuan Cai, and Xiangyu Zhang. RevColV2: Exploring disentangled representations in masked image modeling. Advances in Neural Information Processing Systems (NeurIPS), 2023. 2, 3
  • [20] Zeeshan Hayder, Xuming He, and Mathieu Salzmann. Boundary-aware instance segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 5696–5704, 2017. 1, 3
  • [21] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 770–778, 2016. 1, 4, 8
  • [22] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Identity mappings in deep residual networks. In Proceedings of the European Conference on Computer Vision (ECCV), pages 630–645. Springer, 2016. 1, 4
  • [23] Gao Huang, Zhuang Liu, Laurens Van Der Maaten, and Kilian Q Weinberger. Densely connected convolutional networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 4700–4708, 2017. 1
  • [24] Kuan-Chih Huang, Tsung-Han Wu, Hung-Ting Su, and Winston H Hsu. MonoDTR: Monocular 3D object detection with depth-aware transformer. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 4012–4021, 2022. 1, 3
  • [25] Lin Huang, Weisheng Li, Linlin Shen, Haojie Fu, Xue Xiao, and Suihan Xiao. YOLOCS: Object detection based on dense channel compression for feature spatial solidification. arXiv preprint arXiv:2305.04170, 2023. 3
  • [26] Andrew Jaegle, Felix Gimeno, Andy Brock, Oriol Vinyals, Andrew Zisserman, and Joao Carreira. Perceiver: General perception with iterative attention. In International Conference on Machine Learning (ICML), pages 4651–4664, 2021. 1
  • [27] Jacob Devlin Ming-Wei Chang Kenton and Lee Kristina Toutanova. BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of NAACL-HLT, volume 1, page 2, 2019. 2
  • [28] Chen-Yu Lee, Saining Xie, Patrick Gallagher, Zhengyou Zhang, and Zhuowen Tu. Deeply-supervised nets. In Artificial Intelligence and Statistics, pages 562–570, 2015. 1, 2, 3
  • [29] Alex Levinshtein, Alborz Rezazadeh Sereshkeh, and Konstantinos Derpanis. DATNet: Dense auxiliary tasks for object detection. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), pages 1419–1427, 2020. 1, 3
  • [30] Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, and Xiangxiang Chu. YOLOv6 v3.0: A full-scale reloading. arXiv preprint arXiv:2301.05586, 2023. 3, 7, 2, 4
  • [31] Chuyi Li, Lulu Li, Hongliang Jiang, Kaiheng Weng, Yifei Geng, Liang Li, Zaidan Ke, Qingyuan Li, Meng Cheng, Weiqiang Nie, et al. YOLOv6: A single-stage object detection framework for industrial applications. arXiv preprint arXiv:2209.02976, 2022. 3
  • [32] Hao Li, Jinguo Zhu, Xiaohu Jiang, Xizhou Zhu, Hongsheng Li, Chun Yuan, Xiaohua Wang, Yu Qiao, Xiaogang Wang, Wenhai Wang, et al. Uni-perceiver v2: A generalist model for large-scale vision and vision-language tasks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 2691–2700, 2023. 1
  • [33] Shuai Li, Chenhang He, Ruihuang Li, and Lei Zhang. A dual weighting label assignment scheme for object detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 9387–9396, 2022. 1
  • [34] Tingting Liang, Xiaojie Chu, Yudong Liu, Yongtao Wang, Zhi Tang, Wei Chu, Jingdong Chen, and Haibin Ling. CBNet: A composite backbone network architecture for object detection. IEEE Transactions on Image Processing (TIP), 2022. 3, 9
  • [35] Tsung-Yi Lin, Piotr Doll ́ ar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 2117–2125, 2017. 3
  • [36] Zhihao Lin, Yongtao Wang, Jinhe Zhang, and Xiaojie Chu. DynamicDet: A unified dynamic architecture for object detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 6282–6291, 2023. 3, 6, 2, 4
  • [37] Shu Liu, Lu Qi, Haifang Qin, Jianping Shi, and Jiaya Jia. Path aggregation network for instance segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 8759–8768, 2018. 3, 5
  • [38] Yue Liu, Yunjie Tian, Yuzhong Zhao, Hongtian Yu, Lingxi Xie, Yaowei Wang, Qixiang Ye, and Yunfan Liu. Vmamba: Visual state space model. arXiv preprint arXiv:2401.10166, 2024. 1
  • [39] Yudong Liu, Yongtao Wang, Siwei Wang, TingTing Liang, Qijie Zhao, Zhi Tang, and Haibin Ling. CBNet: A novel composite backbone network architecture for object detection. In Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), pages 11653–11660, 2020. 3
  • [40] Ze Liu, Han Hu, Yutong Lin, Zhuliang Yao, Zhenda Xie, Yixuan Wei, Jia Ning, Yue Cao, Zheng Zhang, Li Dong, et al. Swin transformer v2: Scaling up capacity and resolution. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022. 1
  • [41] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 10012–10022, 2021. 1
  • [42] Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell, and Saining Xie. A ConvNet for the 2020s. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 1197611986, 2022. 1
  • [43] Wenyu Lv, Shangliang Xu, Yian Zhao, Guanzhong Wang, Jinman Wei, Cheng Cui, Yuning Du, Qingqing Dang, and Yi Liu. DETRs beat YOLOs on real-time object detection. arXiv preprint arXiv:2304.08069, 2023. 1, 3, 7, 8, 2, 4
  • [44] Chengqi Lyu, Wenwei Zhang, Haian Huang, Yue Zhou, Yudong Wang, Yanyi Liu, Shilong Zhang, and Kai Chen. RTMDet: An empirical study of designing real-time object detectors. arXiv preprint arXiv:2212.07784, 2022. 8, 2, 3, 4
  • [45] Kemal Oksuz, Baris Can Cam, Emre Akbas, and Sinan Kalkan. A ranking-based, balanced loss function unifying classification and localisation in object detection. Advances in Neural Information Processing Systems (NeurIPS), 33:15534–15545, 2020. 1
  • [46] Kemal Oksuz, Baris Can Cam, Emre Akbas, and Sinan Kalkan. Rank & sort loss for object detection and instance segmentation. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 30093018, 2021. 1
  • [47] Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi. You only look once: Unified, real-time object detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 779788, 2016. 3
  • [48] Joseph Redmon and Ali Farhadi. YOLO9000: better, faster, stronger. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 7263–7271, 2017. 3
  • [49] Joseph Redmon and Ali Farhadi. YOLOv3: An incremental improvement. arXiv preprint arXiv:1804.02767, 2018. 3, 8 [50] Hamid Rezatofighi, Nathan Tsoi, JunYoung Gwak, Amir Sadeghian, Ian Reid, and Silvio Savarese. Generalized intersection over union: A metric and a loss for bounding box regression. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 658–666, 2019. 1
  • [51] Zhiqiang Shen, Zhuang Liu, Jianguo Li, Yu-Gang Jiang, Yurong Chen, and Xiangyang Xue. Object detection from scratch with deep supervision. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 42(2):398–412, 2019. 1, 2
  • [52] Mohit Shridhar, Lucas Manuelli, and Dieter Fox. Perceiveractor: A multi-task transformer for robotic manipulation.In Conference on Robot Learning (CoRL), pages 785–799, 2023. 1
  • [53] Peize Sun, Yi Jiang, Enze Xie, Wenqi Shao, Zehuan Yuan, Changhu Wang, and Ping Luo. What makes for end-to-end object detection? In International Conference on Machine Learning (ICML), pages 9934–9944, 2021. 3
  • [54] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. Going deeper with convolutions. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 1–9, 2015. 1, 2, 3
  • [55] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jon Shlens, and Zbigniew Wojna. Rethinking the inception architecture for computer vision. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 2818–2826, 2016. 1
  • [56] Zineng Tang, Jaemin Cho, Jie Lei, and Mohit Bansal. Perceiver-VL: Efficient vision-and-language modeling with iterative latent attention. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), pages 4410–4420, 2023. 1
  • [57] Zhi Tian, Chunhua Shen, Hao Chen, and Tong He. FCOS: Fully convolutional one-stage object detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 9627–9636, 2019. 3
  • [58] Zhi Tian, Chunhua Shen, Hao Chen, and Tong He. FCOS: A simple and strong anchor-free object detector. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 44(4):1922–1933, 2022. 3
  • [59] Naftali Tishby and Noga Zaslavsky. Deep learning and the information bottleneck principle. In IEEE Information Theory Workshop (ITW), pages 1–5, 2015. 2, 4
  • [60] Zhengzhong Tu, Hossein Talebi, Han Zhang, Feng Yang, Peyman Milanfar, Alan Bovik, and Yinxiao Li. MaxVIT: Multi-axis vision transformer. In Proceedings of the European Conference on Computer Vision (ECCV), pages 459479, 2022. 1
  • [61] Chengcheng Wang, Wei He, Ying Nie, Jianyuan Guo, Chuanjian Liu, Kai Han, and Yunhe Wang. Gold-YOLO: Efficient object detector via gather-and-distribute mechanism. Advances in Neural Information Processing Systems (NeurIPS), 2023. 3, 7, 2, 4
  • [62] Chien-Yao Wang, Alexey Bochkovskiy, and HongYuan Mark Liao. Scaled-YOLOv4: Scaling cross stage partial network. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 13029–13038, 2021. 3
  • [63] Chien-Yao Wang, Alexey Bochkovskiy, and HongYuan Mark Liao. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 7464–7475, 2023. 3, 6, 7, 9, 1
  • [64] Chien-Yao Wang, Hong-Yuan Mark Liao, Yueh-Hua Wu, Ping-Yang Chen, Jun-Wei Hsieh, and I-Hau Yeh. CSPNet: A new backbone that can enhance learning capability of CNN. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), pages 390–391, 2020. 3, 6, 8
  • [65] Chien-Yao Wang, Hong-Yuan Mark Liao, and I-Hau Yeh. Designing network design strategies through gradient path analysis. Journal of Information Science and Engineering (JISE), 39(4):975–995, 2023. 2, 3, 6
  • [66] Chien-Yao Wang, I-Hau Yeh, and Hong-Yuan Mark Liao. You only learn one representation: Unified network for multiple tasks. Journal of Information Science & Engineering (JISE), 39(3):691–709, 2023. 2, 3, 4
  • [67] Jianfeng Wang, Lin Song, Zeming Li, Hongbin Sun, Jian Sun, and Nanning Zheng. End-to-end object detection with fully convolutional network. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 15849–15858, 2021. 1, 3
  • [68] Liwei Wang, Chen-Yu Lee, Zhuowen Tu, and Svetlana Lazebnik. Training deeper convolutional networks with deep supervision. arXiv preprint arXiv:1505.02496, 2015. 1, 2, 3
  • [69] Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 568–578, 2021. 1
  • [70] Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. PVT v2: Improved baselines with pyramid vision transformer. Computational Visual Media, 8(3):415–424, 2022. 1
  • [71] Sanghyun Woo, Shoubhik Debnath, Ronghang Hu, Xinlei Chen, Zhuang Liu, In So Kweon, and Saining Xie. ConvNeXt v2: Co-designing and scaling convnets with masked autoencoders. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 16133–16142, 2023. 1, 2
  • [72] Saining Xie, Ross Girshick, Piotr Doll ́ ar, Zhuowen Tu, and Kaiming He. Aggregated residual transformations for deep neural networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 1492–1500, 2017. 1
  • [73] Zhenda Xie, Zheng Zhang, Yue Cao, Yutong Lin, Jianmin Bao, Zhuliang Yao, Qi Dai, and Han Hu. SimMIM: A simple framework for masked image modeling. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 9653–9663, 2022. 2
  • [74] Shangliang Xu, Xinxin Wang, Wenyu Lv, Qinyao Chang, Cheng Cui, Kaipeng Deng, Guanzhong Wang, Qingqing Dang, Shengyu Wei, Yuning Du, et al. PP-YOLOE: An evolved version of YOLO. arXiv preprint arXiv:2203.16250, 2022. 3, 8, 2, 4
  • [75] Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun. DAMO-YOLO: A report on real-time object detection design. arXiv preprint arXiv:2211.15444, 2022. 3, 7, 2, 4
  • [76] Renrui Zhang, Han Qiu, Tai Wang, Ziyu Guo, Ziteng Cui, Yu Qiao, Hongsheng Li, and Peng Gao. MonoDETR: Depthguided transformer for monocular 3D object detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 9155–9166, 2023. 1, 3
  • [77] Zhaohui Zheng, Ping Wang, Wei Liu, Jinze Li, Rongguang Ye, and Dongwei Ren. Distance-IoU loss: Faster and better learning for bounding box regression. In Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), volume 34, pages 12993–13000, 2020. 1
  • [78] Dingfu Zhou, Jin Fang, Xibin Song, Chenye Guan, Junbo Yin, Yuchao Dai, and Ruigang Yang. IoU loss for 2D/3D object detection. In International Conference on 3D Vision (3DV), pages 85–94, 2019. 1
  • [79] Benjin Zhu, Jianfeng Wang, Zhengkai Jiang, Fuhang Zong, Songtao Liu, Zeming Li, and Jian Sun. AutoAssign: Differentiable label assignment for dense object detection. arXiv preprint arXiv:2007.03496, 2020. 1
  • [80] Lianghui Zhu, Bencheng Liao, Qian Zhang, Xinlong Wang, Wenyu Liu, and Xinggang Wang. Vision mamba: Efficient visual representation learning with bidirectional state space model. arXiv preprint arXiv:2401.09417, 2024. 1
  • [81] Xizhou Zhu, Jinguo Zhu, Hao Li, Xiaoshi Wu, Hongsheng Li, Xiaohua Wang, and Jifeng Dai. Uni-perceiver: Pretraining unified architecture for generic perception for zeroshot and few-shot tasks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 16804–16815, 2022. 1
  • [82] Zhuofan Zong, Guanglu Song, and Yu Liu. DETRs with collaborative hybrid assignments training. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 6748–6758, 2023. 3
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/592308
推荐阅读
相关标签
  

闽ICP备14008679号