当前位置:   article > 正文

CNN在图像分类上发展_msranet

msranet

CNN在图像分类上发展

自2012年AlexNet在Imagenet一鸣惊人之后,国内外顶尖团队都开始着手研究CNN在CV上的应用。12-15年基本上每一年都可以诞生一副经典之作,16-17年表现平淡,感觉各大团队已经在图像分类上已然通关。研究重心更加偏向目标识别,语义分割领域,以及如何压缩网络。

Imagenet:

120万张训练图片,5万验证集,15万测试集,涵盖1000类图片。网络需要对测试图片进行分类。

Alexnet

多伦多大学Alex Krizhevsky以及Hinton大神(Alex导师)在Lenet基础上设计出Alexnet。
Lenet是2层卷积核1 fc,而Alexnet是5层卷积和3 fc. 在深度上Alexnet是对Lenet进行了扩展。由于12年,GPU显存局限性,因此Alexnet在训练时,不得已对卷积进行分组训练,在两块GPU上并行计算。在后续网络中,GPU显存显著提高,不在需要分卡计算,因此后续网络均不在采用分组的方式。但是,该技术却埋下了伏笔,直到17年被何凯明团队和谷歌团队挖掘出,并进一步改善Resnet和GoogleNet.

网络深度和宽度的增加,会增强网络的容量,提高精度,但是会带来两大问题: (1)数据集不足以导致的过拟合。(2)梯度消失(爆炸)造成训练时,网络无法收敛。纵观CNN发展,无不再致力于解决上述两个问题。

训练:
Alexnet针对训练提出一下几点:
(1)Relu,深层网络采用relu作为激活函数,其好处是可以图像中看出来的。那就是在正域时,梯度恒为1。然而,relu存在两个缺点,一个是在负域时,梯度恒为0,造成该神经元无法继续学习,另一个是relu的值域是0->正无穷,容易造成数值问题。
(2)卷积分组训练,Alex使用的GTX-580,显存只有3GB。而Alexnet有6000万参数,过于庞大,不得已需要分GPU训练。并声称该方法可以提高精度。
(3)Local Response Normalization, 该方法是来源生物神经中侧抑制理论。对相同位置,相邻的不同通道进行归一化。这是为了控制Relu输出的值域问题。该方法亲测极其消耗计算量,能增加三分之一的网络训练时间,而对于精度实在没什么贡献。在后续除了Googlenet(InceptionV1)中使用,其余再没有应用。
(4)Overlapping Pooling,该方法是在池化层,使stride小于kerner_size。为获得更多的信息。同LRN一样,后续网络并没有使用该技术。
(5)数据集增强,Alex对数据集增强采用两种方法,第一种是常规的图像随机裁剪,水平翻转。Alexnet采用该方法将图像集增大了2048倍。第二种是做PCA计算。这一步又是及其费操作的一步,海康威视16年参加比赛使用了。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/234505
推荐阅读
相关标签
  

闽ICP备14008679号