ImageNet调查报告_imagenet大型视觉识别挑战赛(ilsvrc)由谁创立?

作者：小丑西瓜9 | 2024-04-20 04:25:20

踩

imagenet大型视觉识别挑战赛(ilsvrc)由谁创立?

本篇内容是在网络中收集汇总

1. ILSVRC介绍:

ImageNet大规模视觉识别挑战赛即“ILSVRC”(ImageNet Large Scale Visual Recognition Challenge)，它是基于ImageNet图像数据库的国际计算机视觉识别竞赛。ILSVRC从2010年开始举办，并逐渐发展为国际计算机视觉领域受关注度最大、水平最高、竞争最激烈的竞赛。2017年是这场竞赛的最后一年。短短7年内，优胜者的识别率就从71.8%提升到97.3%，超过了人类，并证明了更庞大的数据可以带来更好的决策。

ILSVRC使用的数据都来自ImageNet，ImageNet项目于2007年由斯坦福大学华人教授李飞飞创办，目标是收集大量带有标注信息的图片数据供计算机视觉模型训练。ImageNet拥有1500万张标注过的高清图片，总共拥有22000类，其中约有100万张标注了图片中主要物体的定位边框。

首届ImageNet的两年后，也就是2012年，发生的一件大事情，如果可以将如今人工智能领域的繁荣归功于某项比赛，那么肯定当属2012年ImageNet挑战赛宣布研究成果的那一刻。

那一年，多伦多大学的Geoffrey Hinton、Ilya Sutskever和Alex Krizhevsky提出了一种深度卷积神经网络结构：AlexNet，夺得了ImageNet冠军，成绩远远领先于当时的第二名。

2. 比赛指标：

从 2010 年以来，每年的 ILSVRC 都主要包括以下 3 项，后来逐渐增多：

图像分类：算法产生图像中存在的对象类别列表；

单物体定位：算法生成一个图像中含有的物体类别的列表，以及轴对齐的边框，边框指示每个物体类别的每个实例的位置和比例；

物体检测：算法生成图像中含有的物体类别的列表，以及每个物体类别中每个实例的边框，边框表示这些实例的位置和比例。

ILSVRC2016 分为五大部分，包括：目标检测、目标定位、视频中目标物体检测、场景分类、场景分析。

3. 主流算法

自从Alex和他的导师Hinton在2012年的ImageNet大规模图像识别竞赛（ILSVRC2012）中以超过第二名10个百分点的成绩(83.6%的Top5精度)碾压第二名（74.2%，使用传统的计算机视觉方法）后，深度学习真正开始火热，卷积神经网络（CNN）开始成为家喻户晓的名字；

虽然AlexNet并不是CNN的开创，但是从此开始CNN开始受到人们的强烈关注，并在ImageNet的比赛中大放异彩，2012年的AlexNet成为了研究热点从传统视觉方法到卷积神经网络的分水岭；

从12年的AlexNet（83.6%），到2013年ImageNet 大规模图像识别竞赛冠军的88.8%，再到2014年VGG的92.7%和同年的GoogLeNet的93.3%，终于，到了2015年，在1000类的图像识别中，微软提出的残差网（ResNet）以96.43%的Top5正确率，达到了超过人类的水平（人类的正确率也只有94.9%）。

以下为四种经典的卷积神经网络：

Name	Rank	Top-5	Lays
AlexNet	ILSVRC 2012年冠军	16.4%	8层
VGGNet	ILSVRC 2014年亚军	7.3%	19层
Google Inception Net	ILSVRC 2014年冠军	6.7%	22层
ResNet	ILSVRC 2015年冠军	3.57%	152层

3.1 算法学习——卷积神经网络CNN：

3.1.1 卷积神经网络（CNN）概况：

如图为神经网络示意图，图中结点表示神经元，仅有相邻层间结点有连接，同层或跨层间均无连接，分层结构，左侧输入层，右侧输出层，中间为隐藏层，隐藏层比较多（大于2）的神经网络叫做深度神经网络。

卷积神经网络是一种特殊的深层的神经网络模型，它的特殊性体现在两个方面，一方面它的神经元间的连接是非全连接的，即局部感知野的方法，每个神经元没有必要对全局图像进行感知，只需要对局部进行感知，然后在更高层将局部的信息综合起来就得到了全局的信息；另一方面为参数共享，即可以从一个大尺寸图像中选取一个小样本，并从该样本中学习到一些特征，然后可以把从这个样本中学习到的特征作为探测器，应用到这个图像的任意地方中去，而且可以用从样本中所学习到的特征跟原本的大尺寸图像作卷积，从而对这个大尺寸图像上的任一位置获得一个不同特征的激活值。

卷积神经网络大致就是Convolutional Layer（卷积层）、pooling Layer（池化层）、ReLU Layer（修正线性单元层）、fully-connected layer（全连接层）的组合。

3.1.2 卷积层（负责特征抓取）：

如图选中左上角区域的红色框叫做filter（过滤器，有时候也被称为神经元（neuron）或核（kernel）），被选中的区域被称为感受野（receptive field）。过滤器同样也是一个数组（其中的数字被称作权重或参数）。且过滤器的深度必须与输入内容的深度相同（这样才能确保可以进行数学运算），如图为大小为2 x 2的过滤器；

第二层的节点0的数值就是局部区域的线性组合，即被圈中节点的数值乘以对应的权重后相加（线性组合后，也会和前馈神经网络一样，加上一个偏移量）。

然后向后移动过滤器扫描全图，因此每个输出结点并非与全部的输入结点相连，为了不丢失图片的平面结构信息，仍采用矩阵存储输出信息。

三维下过滤器变为（对应RGB），对应的线性组合计算为

可见，在输入depth为时，2x2x个输入节点连接到1个输出节点上。示意图如下:

3.1.2.1 Zero padding

可以看到，每次卷积操作完图片大小都会被压缩，为了避免若干层卷积后图片越来越小的问题，也避免边缘信息被一步步舍弃的问题，采用Zero padding的方法，即在图片周围填充一圈0(或两圈)，根据采用过滤器的大小来决定，以便在卷积之后，得到的Feature Map大小不变。

3.1.2.2 形状、概念抓取

首先，明确不同的形状都可由细小的“零件”组合而成的，而且卷积的每个filter可以探测特定的形状；

又由于Feature Map保持了抓取后的空间结构；

因此若将探测到细小图形的Feature Map作为新的输入再次卷积后࿰

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小丑西瓜9/article/detail/455366