VID-视频目标检测_vid测试是什么

作者：小丑西瓜9 | 2024-04-27 15:53:29

踩

vid测试是什么

VID-视频目标检测

问题和背景

前瞻
视频目标检测，顾名思义，属于目标检测的一个细分领域，虽然仅仅多了视频两个字，而且视频和图片还相似度较高，但是对比目标检测（下文简称OD）的火爆，视频目标检测（下文检测VID）研究的热度相对小很多，不过在2018-2019年，顶会文章逐渐变多，总的算下来，大约就30多篇，因此对于想在这个领域入门并且做一点成果的人，还是非常友好的。

核心问题
这个领域的核心问题主要在于，对于视频中的单独一帧来说，可能会遭遇到运动模糊（motion blur），怪异的姿势（rare poses），遮挡（occlusion）等问题，当然这可能是由相机失焦（camera defocus）或者视频本身质量引起的，这是任务本身的问题。
另一方面，我认为这个领域起步比较晚，导致开源代码较少，细数之下，能用的仅仅有DFF、FGFA、SELSA、MEGA这几份，其中选择性也很小，前三者算一个派系，基于MXNET，MEGA是CVPR2020刚刚开源的，集成了DFF、FGFA、RDN、MEGA四种方法，基于pytorch的，所以对比OD和目标跟踪几十份开源代码，实在是有些尴尬。
最后，由于解决的问题十分单一，且方法的核心思路也比较单一，就是利用序列中的时空信息（spatial-temporal information across frames in a video）来加强单帧的学习，导致使用的方法其实有些内卷。

总的来说好入门，但是难出彩啊！

part 1 论文整理

有开源的
MEGA (2020CVPR): Memory Enhanced Global-Local Aggregation for Video Object Detection paper

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小丑西瓜9/article/detail/497455