当前位置:   article > 正文

细粒度(fine-grained)识别综述

细粒度

最近在研究细粒度,看了很多文章,想做一个总结。后续会继续补充研究的进展。

一:细粒度(fine-grained)的概念

首先提出一个问题:目标检测两个目标比较相似怎么办?用以往的YOLO系列的目标检测等去检测基本上是不太现实的(精度低)。学术上将这个问题划到了细粒度目标检测,就是相似目标的检测,与coarse-grained classification(粗粒度)相比,粗粒度是分辨猫还是狗,而细粒度是分辨狗的种类,比如这个狗是杜宾犬还是金毛。

二:常用的细粒度分类训练和测试的数据集:

1.Stanford Dogs  包含120种狗,每个类别有150张图片,图像总数:20580,基于ImageNet的图像和注释构建的,用于细粒度图像分类任务,分为 12,000 张用于训练的图像和 8,580 张用于测试的图像。

Stanford Dogs dataset for Fine-Grained Visual Categorization

2.CUB200-2011 Caltech-UCSD Birds-200-2011 数据集是用于细粒度视觉分类任务的最广泛使用的数据集。它包含属于鸟类的 200 个子类别,其中每类都有30+ 个训练图像,一共11,788 张图像,其中 5,994 张用于训练,5,794 张用于测试。每个图像都有详细的注释:1 个子类别标签,每张图像包含15个局部部位标注点(part annotation)用来标记鸟类的身体部位,312 个二值属性和 1 个标注框,以及语义分割图像。文本信息来自 Reed 等人。他们通过收集细粒度的自然语言描述来扩展 CUB-200-2011 数据集。每张图像收集了十个单句描述。自然语言描述是通过 Amazon Mechanical Turk (AMT) 平台收集的,至少需要 10 个单词,没有任何子类别和操作的信息。

CUB-200-2011型 (caltech.edu)

3.Oxford Flowers  分为两种不同规模的数据 库, 分别包含17种类别和102种类别的花. 其中,102种类别的数据库比较常用, 每个类别包含了40到258 张图像数据, 总共有8,189张图像该数据库只提供语义分割图像, 不包含其他额外标注信息。这些图像具有较大的比例、姿势和光线变化。此外,还有一些类别在类别内有很大的差异,并且有几个非常相似的类别。

Visual Geometry Group - 牛津大学 (ox.ac.uk)

4.FGVC-Aircraf Fine-Grained Visual Classification of Aircraft

FGVC-Aircraft 包含 10,200 张飞机图像,其中 100 种不同飞机模型变体中的每一种都有 102 张图像,其中大部分是飞机。每张图像中的(主)飞机都带有一个紧密的边界框和一个分层的飞机模型标签。 只提供标注框信息。飞机模型按四级层次结构进行组织。从细到粗的四个级别是:

  • 型号,例如波音 737-76J。由于某些模型在视觉上几乎无法区分,因此在评估中不使用此级别。
  • 变体,例如波音 737-700。变体将所有在视觉上无法区分的模型折叠到一个类中。该数据集包含 102 个不同的变体。
  • 家庭,例如波音 737。该数据集包括 70 个不同的家族。
  • 制造商,例如波音公司。该数据集包括 41 个不同的制造商。 数据分为三个大小相等的训练、验证和测试子集。

FGVC-Aircraft (ox.ac.uk)

5.Stanford-Cars 斯坦福汽车数据集由 196 类汽车组成,共有 16,185 张图像,从后方拍摄。数据分为几乎 50-50 的训练/测试拆分,包括 8,144 张训练图像和 8,041 张测试图像。类别通常位于品牌、型号、年份级别。图像为 360×240。

三:细粒度近些年的论文和研究方向

LionRoarRoar/Awesome-Fine-grained-Visual-Classification: Awesome Fine-grained Visual Classification (github.com)

四:一些好的机器学习数据集网址分享

paperswithcode

Machine Learning Datasets | Papers With Code

这个网站的优点在与将ArXiv上的最新的paper与GitHub上的code对应起来,还有这篇paper用了哪些数据集进行训练和测试,都总结出来了。还有就是上面有8,916 个机器学习的数据集(包括很多广泛使用的数据集)。用好这个网站能够帮助我们节省不少的时间。具体怎么使用可参考这个博主的介绍。

papers with code介绍(人工智能方向研究生的必备网站)_paperwithcode-CSDN博客写的非常的详细。

ImageNet

ImageNet (image-net.org)

ImageNet是一个大规模的图像数据库和相关的图像识别挑战赛。它是一个由斯坦福大学教授Li Fei-Fei创建的项目,旨在推动计算机视觉领域的发展。该数据库拥有数百万张有标签的图像,用于训练深度学习模型并提高图像识别的准确性。ImageNet Challenge是每年举行的一个竞赛,参赛者的任务是开发算法来在给定的1000个对象类别中对物体进行分类和定位。ImageNet数据库和挑战赛在计算机视觉领域产生了深远的影响,被广泛应用于图像识别、自然语言处理等领域。

具体详细的介绍可参考这个博主写的介绍,也是写的非常的详细。

ImageNet数据集简介与下载详细步骤_imagenet数据集下载-CSDN博客

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号