赞
踩
本篇内容是在网络中收集汇总
1. ILSVRC介绍:
ImageNet大规模视觉识别挑战赛即“ILSVRC”(ImageNet Large Scale Visual Recognition Challenge),它是基于ImageNet图像数据库的国际计算机视觉识别竞赛。ILSVRC从2010年开始举办,并逐渐发展为国际计算机视觉领域受关注度最大、水平最高、竞争最激烈的竞赛。2017年是这场竞赛的最后一年。短短7年内,优胜者的识别率就从71.8%提升到97.3%,超过了人类,并证明了更庞大的数据可以带来更好的决策。
ILSVRC使用的数据都来自ImageNet,ImageNet项目于2007年由斯坦福大学华人教授李飞飞创办,目标是收集大量带有标注信息的图片数据供计算机视觉模型训练。ImageNet拥有1500万张标注过的高清图片,总共拥有22000类,其中约有100万张标注了图片中主要物体的定位边框。
首届ImageNet的两年后,也就是2012年,发生的一件大事情,如果可以将如今人工智能领域的繁荣归功于某项比赛,那么肯定当属2012年ImageNet挑战赛宣布研究成果的那一刻。
那一年,多伦多大学的Geoffrey Hinton、Ilya Sutskever和Alex Krizhevsky提出了一种深度卷积神经网络结构:AlexNet,夺得了ImageNet冠军,成绩远远领先于当时的第二名。
2. 比赛指标:
从 2010 年以来,每年的 ILSVRC 都主要包括以下 3 项,后来逐渐增多:
图像分类:算法产生图像中存在的对象类别列表;
单物体定位:算法生成一个图像中含有的物体类别的列表,以及轴对齐的边框,边框指示每个物体类别的每个实例的位置和比例;
物体检测:算法生成图像中含有的物体类别的列表,以及每个物体类别中每个实例的边框,边框表示这些实例的位置和比例。
ILSVRC2016 分为五大部分,包括:目标检测、目标定位、视频中目标物体检测、场景分类、场景分析。
3. 主流算法
自从Alex和他的导师Hinton在2012年的ImageNet大规模图像识别竞赛(ILSVRC2012)中以超过第二名10个百分点的成绩(83.6%的Top5精度)碾压第二名(74.2%,使用传统的计算机视觉方法)后,深度学习真正开始火热,卷积神经网络(CNN)开始成为家喻户晓的名字;
虽然AlexNet并不是CNN的开创,但是从此开始CNN开始受到人们的强烈关注,并在ImageNet的比赛中大放异彩,2012年的AlexNet成为了研究热点从传统视觉方法到卷积神经网络的分水岭;
从12年的AlexNet(83.6%),到2013年ImageNet 大规模图像识别竞赛冠军的88.8%,再到2014年VGG的92.7%和同年的GoogLeNet的93.3%,终于,到了2015年,在1000类的图像识别中,微软提出的残差网(ResNet)以96.43%的Top5正确率,达到了超过人类的水平(人类的正确率也只有94.9%)。
以下为四种经典的卷积神经网络:
Name |
Rank |
Top-5 |
Lays |
AlexNet |
ILSVRC 2012年冠军 |
16.4% |
8层 |
VGGNet |
ILSVRC 2014年亚军 |
7.3% |
19层 |
Google Inception Net |
ILSVRC 2014年冠军 |
6.7% |
22层 |
ResNet |
ILSVRC 2015年冠军 |
3.57% |
152层 |
3.1 算法学习——卷积神经网络CNN:
3.1.1 卷积神经网络(CNN)概况:
如图为神经网络示意图,图中结点表示神经元,仅有相邻层间结点有连接,同层或跨层间均无连接,分层结构,左侧输入层,右侧输出层,中间为隐藏层,隐藏层比较多(大于2)的神经网络叫做深度神经网络。
卷积神经网络是一种特殊的深层的神经网络模型,它的特殊性体现在两个方面,一方面它的神经元间的连接是非全连接的,即局部感知野的方法,每个神经元没有必要对全局图像进行感知,只需要对局部进行感知,然后在更高层将局部的信息综合起来就得到了全局的信息; 另一方面为参数共享,即可以从一个大尺寸图像中选取 一个小样本,并从该样本中学习到一些特征,然后可以把从这个样本中学习到的特征作为探测器,应用到这个图像的任意地方中去,而且可以用从样本中所学习到的特征跟原本的大尺寸图像作卷积,从而对这个大尺寸图像上的任一位置获得一个不同特征的激活值。
卷积神经网络大致就是Convolutional Layer(卷积层)、pooling Layer(池化层)、ReLU Layer(修正线性单元层)、fully-connected layer(全连接层)的组合。
3.1.2 卷积层(负责特征抓取):
如图选中左上角区域的红色框叫做filter(过滤器,有时候也被称为神经元(neuron)或核(kernel)),被选中的区域被称为感受野(receptive field)。过滤器同样也是一个数组(其中的数字被称作权重或参数)。且过滤器的深度必须与输入内容的深度相同(这样才能确保可以进行数学运算),如图为大小为2 x 2的过滤器;
第二层的节点0的数值就是局部区域的线性组合,即被圈中节点的数值乘以对应的权重后相加(线性组合后,也会和前馈神经网络一样,加上一个偏移量)。
然后向后移动过滤器扫描全图,因此每个输出结点并非与全部的输入结点相连,为了不丢失图片的平面结构信息,仍采用矩阵存储输出信息。
三维下过滤器变为(对应RGB),对应的线性组合计算为
可见,在输入depth为时,2x2x个输入节点连接到1个输出节点上。示意图如下:
3.1.2.1 Zero padding
可以看到,每次卷积操作完图片大小都会被压缩,为了避免若干层卷积后图片越来越小的问题,也避免边缘信息被一步步舍弃的问题,采用Zero padding的方法,即在图片周围填充一圈0(或两圈),根据采用过滤器的大小来决定,以便在卷积之后,得到的Feature Map大小不变。
3.1.2.2 形状、概念抓取
首先,明确不同的形状都可由细小的“零件”组合而成的,而且卷积的每个filter可以探测特定的形状;
又由于Feature Map保持了抓取后的空间结构;
因此若将探测到细小图形的Feature Map作为新的输入再次卷积后
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。