赞
踩
首先ImageNet是是一个计算机视觉数据集,是由斯坦福大学的李飞飞教授带领创建。该数据集包合 14,197,122张图片和21,841个Synset索引。 Synset是WordNet层次结构中的一个节点,它又是 一组同义词集合。 ImageNet数据集一直是评估图像分类算法性能的基准。
ImageNet 数据集是为了促进计算机图像识别技术的发展而设立的一个大型图像数据集。2016 年ImageNet 数据集中已经超过干万张图片,每一张图片都被手工标定好类别。ImageNet 数据集中的图片涵盖了大部分生活中会看到的图片类别。ImageNet最初是拥有超过100万张图像的数据集。如图下图所示,它包含了各种各样的图像,并且每张图像都被关联了标签(类别名)。每年都会举办使用这个巨大数据集的ILSVRC图像识别大赛。
下载方式分为两种:
1、官网:ImageNet下载,这里需要注册下载
2、互联网上分享的云盘上下载,这里我用CSND上分享的链接进行下载下载、处理、加载ImageNet数据集(全网最详细)_imagenet数据集下载-CSDN博客
下载并解压后可以得到这几个文件夹:
训练数据有1000个文件夹,对应的名字我们可以看到:
这里文件夹的名字与与ILSVRC2012_devkit_t12\data中的ILSVRC2012_validation_ground_truth.txt中真实标签信息不同
因此阅读reamdme.txt我们可以发现,具体文件的信息在meta.mat数据之中。
我们可以使用python对meta.mat文件进行查看,也可以直接是用matlab进行打开(推荐)。
用python我们用代码简单查看下数据,
- import scipy.io as scio
- data = scio.loadmat(r"你的meta.mat路径")
- print(type(data))
通过print(type(data)) 我们可以知道,加载后的数据被转换为dict字典类型数据,查看keys可以发现synsets字段,并在readme.txt中了解到synsets字段下包含以下信息,WNID 就是train文件下n13044778等名称,而其在ILSVRC2012_validation_ground_truth.txt中真实标签为ILSVRC2012_ID,因此有了对应关系。
synsets =
ILSVRC2012_ID
WNID
words
gloss
num_children
children
wordnet_height
num_train_images
这里我们还是根据下载、处理、加载ImageNet数据集(全网最详细)_imagenet数据集下载-CSDN博客这一篇博客的方法对最终验证数据集进行处理,并且由于本人机器性能因此将其中10类提出进行训练查看结果。
最终选取以下10类:
并在验证数据中找到相应的文件进行拷贝。
具体的代码实现在jupyter中跑了一次,具体可以看这个链接
学习笔记:jupyter实现AlexNet(部分ImageNet数据集)-CSDN博客
简单实现了一下AlexNet的内容,在训练过程中收集了一些对于batch_size选择的问题,一般选择在16或者32之间更好,虽然刚开始直观的认为batch_size越大学习的越好,但实际相反。经过这段时间的接触,感觉可以把深度学习比作一个人去反复阅读一本书,学习一本书,epoch代表的是阅读多少遍,而batch_size则代表一本书一页内容的多少,若是一页内容多反而学习效果不好。而不同的算法与操作就像不同的学习方法一样去学习一本书。
后续学习应该会看一些github上的源代码,了解一下不同人的书写代码的风格。也继续d2l的学习。因为研究方向是分割这块,经典的深度学习算法应该是用不上的,后续会多去看看分割相关的内容并学习。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。