当前位置:   article > 正文

大模型时代,目标检测任务会走向何方?

大模型目标检测

来源:知乎-深度眸

地址:https://zhuanlan.zhihu.com/p/663703934

你或许很好奇,现在目标检测都在干啥?在大模型时代有啥花样可以做的?作为研究者还有啥可以挖的吗?作为从业者有没有好的东西可以借鉴?

如果你有这些疑问,那么这篇文章很适合你。

其实这篇文章是想说明下从我们常见的目标检测到现在 MLLM 盛行的时代,和 Object Detection 任务有哪些?目前又涌现了哪些新的任务?是否有很大的实际价值?希望能够打开下大家思路!!!

1 Object Detection

经典目标检测大家应该非常熟悉了,一般指的就是闭集固定类别的检测。

4d1dac857da9e4f1f573ecd19bc20f4f.jpeg

2 Open Set/Open World/OOD

这个任务是指在实际应用上可以检测任何前景物体,但是有些不需要预测类别,只要检测出框就行。在很多场合也有应用场景,有点像类无关的增量训练。

9c464ffc7b95e6276455d174aab2bc26.jpeg

unknown 就是模型预测的不知道类别的检测结果。

3 Open Vocabulary

也是开放集任务,相比于 open set,需要知道不在训练集类别中的新预测物体类别。这类模型通常都需要接入文本作为一个模态输入,因为开放词汇目标检测的定义就是给定任意词汇都可以检测出来。

训练时候通常是要确保训练集和测试集的类别不能重复,否则就是信息泄露了,但是训练和测试集图片是否重复其实也没有强制限制。

5a71d3b6af6d92ef376b8a909c387131.jpeg

可以看出 OVD 任务更加贴合实际应用,文本的描述不会有很大限制,同一个物体你可以采用多种词汇描述都可以检测出来。OVD 任务是一个比较实用的,但是目前还没有出现开源的超级强的 OVD 算法(这个超强是指的对比 SAM 来说,极强的 open 检测能力)

4 Phrase Grounding

这个任务也叫做 phrase localization。给定名词短语,输出对应的单个或多个物体检测框。如果是输入一句话,那么就是定位这句话中包括的所有名词短语。在 GLIP 得到了深入的研究。

e70de4e5a1d0ed453c7b7f7fd2104ae6.jpeg

从上图可以看出,Phrase Grounding 任务是包括了 OVD 任务的。常见的评估数据集是 Flickr30k Entities

15129d3a9266bcb1627250d7c91bc885.jpeg

5 Referring Expression Comprehension

简称 REC,有时候也称为 visual grounding。给定图片和一句话,输出对应的物体坐标,通常就是单个检测框。

52283e20ae3e7a8738032a38c3466b6f.jpeg

常用的是 RefCOCO/RefCOCO+/RefCOCOg 三个数据集。是相对比较简单的数据集。这个任务侧重理解。

6 Description Object Detection

ef42bf9cef12f213de3af879743e2675.jpeg

描述性目标检测也可以称为广义 Referring Expression Comprehension。为何叫做广义,这就要说道目前常用的

Referring Expression Comprehension 存在的问题了:

  1. REC 数据集通常都是指代一个物体,不太符合实际

  2. REC 数据集没有负样本,也就是每句话一定对应了图片中的物体,这样训练的模型会存在很大的幻觉

  3. REC 数据集通常都是正向描述,例如上图的一条在图片左边的狗,但是没有反向描述,例如一条没有被绳子牵引着在外面的狗

基于此,Described Object Detection 论文提出了这个新的数据集,命名为 DOD。类似还有 gRefCOCO

其实还有一个更细致的任务叫做 :Open-Vocabulary Visual Grounding 和 Open-Vocabulary Phrase Grounding,来自论文 OV-VG

d9680c44616181e8cffc7b81c09c70d5.jpeg

可以看出这个任务重点是想特意区分类别泄露问题,但是由于大数据集训练时代,这个情况是无法避免的。

7 Caption with Grounding

这个任务的含义是:给定图片,要求模型输出图片描述,同时对于其中的短语都要给出对应的 bbox

77f589c689fc4b3044b6c7addaff1381.jpeg

有点像 Phrase Grounding 的反向过程。这个任务可以方便将输出的名称和 bbox 联系起来,方便后续任务的进行。

8 Reasoning Intention-Oriented Object Detection

意图导向的目标检测,和之前的 DetGPT 提出的推理式检测,我感觉非常类似。

DetGPT 中的推理式检测含义是:给定文本描述,模型要能够进行推理,得到用户真实意图。

2002593eac0ece5fbb215fd5b66baf0a.jpeg

例如 我想喝冷饮,LLM 会自动进行推理解析输出 冰箱 这个单词,从而可以通过 Grounding 目标检测算法把冰箱检测出来。模型具备推理功能。

而 RIO 我觉得也是一样,来自论文 RIO: A Benchmark for Reasoning Intention-Oriented Objects in Open Environments,想做的事情也是一样

898817b9a0578021ae67824db232faf3.jpeg 4611ee042dc77fcca07fa5b224105424.jpeg

9 基于区域输入的理解和 Grounding

这个是一个非常宽泛的任务,表示不仅可以输入图文模态,还可以输入其他任意你能想到的模态,然后进行理解或者定位相关任务。

最经典的任务是 Referring expression generation:给定图片和单个区域,对该区域进行描述。常用的评估数据集是 RefCOCOg

现在也有很多新的做法,典型的如 Shikra 里面提到的 Referential dialogue,包括 REC,REG,PointQA,Image Caption 以及 VQA 5 个任务

8c71fdf4f3e1a5de3689f2190a2c3a81.jpeg

Apple 也提出了新的可交互的设计

d63ad04701a0f6110eeb92bb9f0f00b5.jpeg

其实文本、bbox 和图片配合,还可以实现很多任务,但是由于都是比较特殊或者不是很主流,这里就没有写了。

7966820a39ecd79710bb48789131d4dc.jpeg

10 结尾

可能还漏掉了一些,欢迎大家留言评论。后续可以讲讲这些任务应该如何解决?每个任务到底是咋评测的,通常的做法是咋样的。

现在都是大数据训练时代,评测虽然非常有用,但是很难避免数据泄露问题,如果作者不开源,你根本无法知道到底是模型性能还是数据泄露,这个一个值得思考的问题...,而这个问题也很难解,因为作者不开源,你也没有精力去做复现...

由于我们也没有做过工业,不知道大家认为哪个任务才是大家真正需要的?或者说这些任务还不够还可以扩展以满足实际需求,欢迎留言和交流!!!

  1. 关注公众号【机器学习与AI生成创作】,更多精彩等你来读
  2. 卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完
  3. 深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读
  4. 深入浅出ControlNet,一种可控生成的AIGC绘画生成算法! 
  5. 经典GAN不得不读:StyleGAN
  6.  戳我,查看GAN的系列专辑~!
  7. 一杯奶茶,成为AIGC+CV视觉的前沿弄潮儿!
  8. 最新最全100篇汇总!生成扩散模型Diffusion Models
  9. ECCV2022 | 生成对抗网络GAN部分论文汇总
  10. CVPR 2022 | 25+方向、最新50篇GAN论文
  11.  ICCV 2021 | 35个主题GAN论文汇总
  12. 110篇!CVPR 2021最全GAN论文梳理
  13. 100篇!CVPR 2020最全GAN论文梳理
  14. 拆解组新的GAN:解耦表征MixNMatch
  15. StarGAN第2版:多域多样性图像生成
  16. 附下载 | 《可解释的机器学习》中文版
  17. 附下载 |《TensorFlow 2.0 深度学习算法实战》
  18. 附下载 |《计算机视觉中的数学方法》分享
  19. 《基于深度学习的表面缺陷检测方法综述》
  20. 《零样本图像分类综述: 十年进展》
  21. 《基于深度神经网络的少样本学习综述》
  22. 《礼记·学记》有云:独学而无友,则孤陋而寡闻
  23. 点击一杯奶茶,成为AIGC+CV视觉的前沿弄潮儿!,加入 AI生成创作与计算机视觉 知识星球!
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小舞很执着/article/detail/739912
推荐阅读
相关标签
  

闽ICP备14008679号