赞
踩
MNIST是一个手写数字的数据集,包含一组60,000张图片的训练集和一个包含10,000张图片的测试集,图片一共有10类,分别对应阿拉伯数字0-9。
在原始的MNIST数据集中,每张图片由28*28的矩阵表示,在机器学习中,我们一般将它转成784维的向量作为输入层的输入。
CIFAR-10是由Hiton的学生整理的一个用于识别普适物体的小型数据集.它一共包含10个类别的RGB彩色图片:飞机、汽车、鸟类、猫、鹿、狗、蛙类、马、船和卡车。
CIFAR-10数据集图片大小为32*32;数据集中一共有50000张训练图片和10000张测试图片。
Pascal VOC challenge 是一个非常流行的数据集,用于构建和评估图像分类、对象检测和分割的算法。
Pascal VOC challenge 的目标就是从存在于现实场景中的许多可视对象类别中识别出对象(即不预先分割的对象)。全部有20个类别:
Person: person
Animal: bird, cat, cow, dog, horse, sheep
Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train
Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor
(为了便于展示,将数据集Annotations中的方框画在了图像上)
.
└── VOCdevkit #根目录
└── VOC2012 #不同年份的数据集,这里只下载了2012的,还有2007等其它年份的
├── Annotations #存放xml文件,与JPEGImages中的图片一一对应,解释图片的内容等等
├── ImageSets #该目录下存放的都是txt文件,txt文件中每一行包含一个图片的名称,末尾会加上±1表示正负样本
│ ├── Action
│ ├── Layout
│ ├── Main
│ └── Segmentation
├── JPEGImages #存放源图片
├── SegmentationClass #存放的是图片,分割后的效果
└── SegmentationObject #存放的是图片,分割后的效果
https://blog.csdn.net/zhangjunbob/article/details/52769381 [VOC数据集标记格式详解]
Microsoft COCO数据集是微软团队获取的一个可以用来图像recognition(画方框)+segmentation(涂颜色)+captioning(看图说话) 数据集
class_name = [
'__background__', 'person', 'bicycle', 'car', 'motorcycle', 'airplane',
'bus', 'train', 'truck', 'boat', 'traffic light', 'fire hydrant',
'stop sign', 'parking meter', 'bench', 'bird', 'cat', 'dog', 'horse',
'sheep', 'cow', 'elephant', 'bear', 'zebra', 'giraffe', 'backpack',
'umbrella', 'handbag', 'tie', 'suitcase', 'frisbee', 'skis',
'snowboard', 'sports ball', 'kite', 'baseball bat', 'baseball glove',
'skateboard', 'surfboard', 'tennis racket', 'bottle', 'wine glass',
'cup', 'fork', 'knife', 'spoon', 'bowl', 'banana', 'apple', 'sandwich',
'orange', 'broccoli', 'carrot', 'hot dog', 'pizza', 'donut', 'cake',
'chair', 'couch', 'potted plant', 'bed', 'dining table', 'toilet', 'tv',
'laptop', 'mouse', 'remote', 'keyboard', 'cell phone', 'microwave',
'oven', 'toaster', 'sink', 'refrigerator', 'book', 'clock', 'vase',
'scissors', 'teddy bear', 'hair drier', 'toothbrush'
]
COCO数据集下载 [官方]
https://www.aiuai.cn/aifarm931.html [国内源]
ImageNet 数据集最初由斯坦福大学李飞飞等人在 CVPR 2009 的一篇论文中推出,并被用于替代 PASCAL 数据集(后者在数据规模和多样性上都不如 ImageNet)和 LabelMe 数据集(在标准化上不如 ImageNet)。
ImageNet是根据WordNet层次结构组织的图像数据集。WordNet包含大约10万个单词,ImageNet平均提供了大约1000个图像来说明每个单词。
总图像是大约是150万,每个都有多个边界框和相应的类标签。
从2010年起,ImageNet每年都会举办一场ImageNet大规模视觉识别竞赛。在ImageNet上最重要的几个深度学习模型有AlexNet、VGGNet、GoogLeNet和ResNet(深度残差网络)。
如果这些内容对你有所帮助,可以关注我的个人博客哦~
http://www.xyu.ink/blog
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。