赞
踩
最近在研究细粒度,看了很多文章,想做一个总结。后续会继续补充研究的进展。
首先提出一个问题:目标检测两个目标比较相似怎么办?用以往的YOLO系列的目标检测等去检测基本上是不太现实的(精度低)。学术上将这个问题划到了细粒度目标检测,就是相似目标的检测,与coarse-grained classification(粗粒度)相比,粗粒度是分辨猫还是狗,而细粒度是分辨狗的种类,比如这个狗是杜宾犬还是金毛。
1.Stanford Dogs 包含120种狗,每个类别有150张图片,图像总数:20580,基于ImageNet的图像和注释构建的,用于细粒度图像分类任务,分为 12,000 张用于训练的图像和 8,580 张用于测试的图像。
Stanford Dogs dataset for Fine-Grained Visual Categorization
2.CUB200-2011 Caltech-UCSD Birds-200-2011 数据集是用于细粒度视觉分类任务的最广泛使用的数据集。它包含属于鸟类的 200 个子类别,其中每类都有30+ 个训练图像,一共11,788 张图像,其中 5,994 张用于训练,5,794 张用于测试。每个图像都有详细的注释:1 个子类别标签,每张图像包含15个局部部位标注点(part annotation)用来标记鸟类的身体部位,312 个二值属性和 1 个标注框,以及语义分割图像。文本信息来自 Reed 等人。他们通过收集细粒度的自然语言描述来扩展 CUB-200-2011 数据集。每张图像收集了十个单句描述。自然语言描述是通过 Amazon Mechanical Turk (AMT) 平台收集的,至少需要 10 个单词,没有任何子类别和操作的信息。
3.Oxford Flowers 分为两种不同规模的数据 库, 分别包含17种类别和102种类别的花. 其中,102种类别的数据库比较常用, 每个类别包含了40到258 张图像数据, 总共有8,189张图像该数据库只提供语义分割图像, 不包含其他额外标注信息。这些图像具有较大的比例、姿势和光线变化。此外,还有一些类别在类别内有很大的差异,并且有几个非常相似的类别。
Visual Geometry Group - 牛津大学 (ox.ac.uk)
4.FGVC-Aircraf Fine-Grained Visual Classification of Aircraft
FGVC-Aircraft 包含 10,200 张飞机图像,其中 100 种不同飞机模型变体中的每一种都有 102 张图像,其中大部分是飞机。每张图像中的(主)飞机都带有一个紧密的边界框和一个分层的飞机模型标签。 只提供标注框信息。飞机模型按四级层次结构进行组织。从细到粗的四个级别是:
5.Stanford-Cars 斯坦福汽车数据集由 196 类汽车组成,共有 16,185 张图像,从后方拍摄。数据分为几乎 50-50 的训练/测试拆分,包括 8,144 张训练图像和 8,041 张测试图像。类别通常位于品牌、型号、年份级别。图像为 360×240。
Machine Learning Datasets | Papers With Code
这个网站的优点在与将ArXiv上的最新的paper与GitHub上的code对应起来,还有这篇paper用了哪些数据集进行训练和测试,都总结出来了。还有就是上面有8,916 个机器学习的数据集(包括很多广泛使用的数据集)。用好这个网站能够帮助我们节省不少的时间。具体怎么使用可参考这个博主的介绍。
papers with code介绍(人工智能方向研究生的必备网站)_paperwithcode-CSDN博客写的非常的详细。
ImageNet是一个大规模的图像数据库和相关的图像识别挑战赛。它是一个由斯坦福大学教授Li Fei-Fei创建的项目,旨在推动计算机视觉领域的发展。该数据库拥有数百万张有标签的图像,用于训练深度学习模型并提高图像识别的准确性。ImageNet Challenge是每年举行的一个竞赛,参赛者的任务是开发算法来在给定的1000个对象类别中对物体进行分类和定位。ImageNet数据库和挑战赛在计算机视觉领域产生了深远的影响,被广泛应用于图像识别、自然语言处理等领域。
具体详细的介绍可参考这个博主写的介绍,也是写的非常的详细。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。