赞
踩
论文链接:https://arxiv.org/abs/2203.01305
自DETR问世以来,transformer被引入到了目标检测领域,DETR通过引入query和bipartite graph matching 机制,两两匹配GT和PRED,实现对NMS的摒弃,可以做到真正的end to end。然而DETR存在着训练过慢、训练显存占用大和对小目标物体识别效果差的问题。针对DETR的缺点,已有不少的工作开展了讨论和研究,如Deformable DETR、Conditional DETR、Anchor DETR、DAB-DETR等。大多数工作致力于解耦Query,如将Query解释为 content part 和 anchor或reference point的组合,并没有人从bipartite graph matching机制入手。这篇论文提出DETR训练过慢的原因在于训练初期bipartite graph matching无法稳定的匹配GT和PRED,导致早期训练阶段的优化目标不一致难以收敛。这篇论文通过引入GT的去噪任务来帮助稳定训练初始的bipartite graph matching,加快bipartite graph matching的收敛。
DN-DETR 在相同的环境下取得了显著的改进,并在以 ResNet-50 为骨干的 DETR 类方法中取得了最好的结果(AP分别为 43.4 和 48.6,训练次数为 12 次和 50 次)。
从某种角度来看,DN-DETR 的处理措施有些类似于知识蒸馏,不同在于知识蒸馏使用一个老师模型去指导学生模型,而DN-DETR使用了较易学习的噪声GT加快bipartite graph matching的收敛。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。