当前位置:   article > 正文

图像分类模型

图像分类模型

1. 图像分类模型

1.1 LeNet模型

该模型诞生于1994年,是最早的卷积神经网络之一,是深度学习领域的奠基之作。其网络共涉及60k参数。该模型的基本结构为:
conv1(6)>pool1>conv2(16)>pool2>fc3(120)>fc4(84)>fc5(10)>softmax,括号中的数字代表通道数。

其中,卷积(conv)层用于提取空间特征,池化(pool)层进行映射到空间均值下采样(subsample)

全连接层(fullconnection)将前层是卷积层的输出转化为卷积核为h·w的全局卷积,其中h和w分别为前层卷积结果的高和宽;全连接层将前层是 全连接层的输出转化为卷积核为1×1的卷积。该层起到将“分布式特征表述”映射到样本标记空间的作用。

最后,输出(output)层采用softmax分类器,其输出为一个向量,元素个数等于总类别个数,元素值为测试图像在各个分类上的评分(各个分类上的元素值加起来为1),元素值最大的那一类即被认定为该测试图像所属的类别。

该模型最早应用于MNIST手写识别数字的识别并且取得了不错的效果,但由于受当时计算效率低下的影响,该模型的深度浅、参数少且结构单一,并不适用于复杂的图像分类任务。

1.2 AlexNet模型

该网络共涉及约60M参数,ILSVRC2012冠军网络。AlexNet有着和LetNet相似的网络结构,但网络层数更深,有更多的参数。相较于LetNet,该模型使用了RELU激活函数,其梯度下降速度更快,因而训练模型所需的迭代次数大大降低。同时,该模型使用了随机失活(dropout)操作,在一定程度上避免了因训练产生的过拟合,训练模型的计算量也大大降低。但即便如此,该模型相较于LetNet模型其深度仅仅增加了3层,其对图像的特征描述及提取能力仍然十分有限。

1.3 GoogLeNet模型

该网络共涉及5M参数,ILSVRC2014冠军网络。该模型最大的特点在于引入了Inception模块,该模块共有4个分支,第一个分支对输入进行1×1卷积,它可以跨通道组织信息,提高网络的表达能力;第二个分支先使用了1×1卷积,然后连接3×3卷积,相当于进行了两次特征变换;第三个分支类似,先是1×1的卷积,然后连接5×5卷积;最后一个分支则是3×3最大池化后直接使用1×1卷积。

该Inception模块的引入大大提高了参数的利用效率,其原因在于:一般来说卷积层要提升表达能力,主要依靠增加输出通道数,但副作用是计算量增大和过拟合。每一个输出通道对应一个滤波器,同一个滤波器共享参数,只能提取一类特征,因此一个输出通道只能做一种特征处理。而该模型允许在输出通道之间进行信息组合,因此效果明显。同时该模块使用1×1卷积核对输入进行降维,也大大减少了参数量。

GoogLeNet相较于之前的网络模型其深度大大增加,达到了史无前例的22层,由于其参数量仅为AlexNet的1/12,模型的计算量大大减小,但对图像分类的精度又上升到了一个新的台阶。虽然GoogLeNet模型层次达到了22层,但想更进一步加深层次却是异常困难,原因在于随着模型层次的加深,梯度弥散问题愈发严重,使得网络难以训练。

1.4 VGGNet模型

该模型是ILSVRC2014的亚军网络,它是从AlexNet模型发展而来,主要修改 了如下两方面:

  • (a)使用几个带有小滤波器的卷积层代替一个大滤波器的卷积层,即卷积层使用的卷积核较小,但增加了模型的深度;
  • (b)采用多尺度(Multi Scale)训练策略,具体来说,首先将原始图像等比例缩放,保证短边大于224,再在经过处理的图像上随机选取224×224窗口,因为物体尺度变化多样,这种训练策略可以更好地识别物体。

该模型虽然在ILSVRC2014没有获得冠军,但其与冠军的成绩相差无几,原因在于上述两点改进对模型的学习能力提供了非常大的帮助。但该网络使用的参数过多,训练速度缓慢,后续研究仍可在此问题上继续优化。

1.5 ResNet模型

该模型是ILSVRC2015的冠军网络。该模型旨在解决“退化”问题,即当模型的层次加深后错误率却提高了。其原因在于:当模型变复杂时,随机梯度下降(StochasticGradientDe scent,SGD)的优化变得更加困难,导致了模型达不到好的学习效果。因此提出了Residual结构,如图即增加一个恒等映射,将原始所需要学的函数H(X)转换成F(X)+X,假设F(X)的优化会比H(X)简单的多,则这两种表达的效果相同,但是优化的难度却并不相同。该模型的出现,使得网络模型深度在很大范围内不受限制(目前可达到10000层以上),对后续卷积神经网络的发展产生了深远的意义。

1.6 SENet模型

该模型是ILSVRC2017的冠军网络。SENet通过额外的分支(gap-fc-fc-sigm)来得到每个通道的[0,1]权重,自适应地校正原各通道激活值响应,以提升有用通道响应并抑制对当前任务用处不大的通道响应。该模型不仅在一定程度上减少了计算量,防止了模型训练的过拟合,同时更有利于对图像特征的描述。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/151530
推荐阅读
相关标签
  

闽ICP备14008679号