赞
踩
AlexNet是2012年ImageNet竞赛冠军获得者Hinton和他的学生Alex Krizhevsky设计的。也是在那年之后,更多的更深的神经网路被提出,比如优秀的vgg,GoogleLeNet。其官方提供的数据模型,准确率达到57.1%,top 1-5 达到80.2%
注:其实在AlexNet网络问世之前,在进行图像识别,分割等工作时,我们采用手工提取特征或者是特征+机器学习的方式,但是这样很难。因此有一种说法是我们能不能利用特征本身进行学习,那么特征本身就存在了层级关系(比如第一层是点,第二层是点与线组合的特征,第三层为局部特征,第四层…直到组合到一起到最后整个图像出来)那么这种特征学习的部分就是深度学习中的黑盒子,我们也不知道是如何进行的。
对每层卷积进行分析:
注:经卷积后的矩阵尺寸大小计算公式为:N=(W-F+2P)/S+1
- 输入图片大小:W*W
- 卷积核大小:F*F
- stride:S
- padding的像素数:P
首次使用GPU进行加速训练
使用Relu激活函数,而不是传统的Sigmoid激活函数或Tanh激活函数
Relu函数:
f
(
x
)
=
m
a
x
(
0
,
x
)
f(x)=max(0,x)
f(x)=max(0,x)
使用LRN局部响应归一化
局部响应归一化处理,实际就是利用临近的数据做归一化,该策略贡献了 1.2% 的准确率,该技术是深度学习训练时的一种提高准确度的技术方法,LRN 一般是在激活、池化后进行的一种处理方法。LRN 是对局部神经元的活动创建竞争机制,使得其中响应较大的值变得相对更大,并抑制其他反馈较小的神经元,增强了模型的泛化能力。
在全连接层的前两层使用Dropout随机失活神经元操作,以减少过拟合
AlexNet学习出来的特征是什么样子的?
附:为什么使用多层全连接:
全连接层在 CNN 中起到分类器的作用,前面的卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间,全连接层是将学到的特征映射映射到样本标记空间,就是矩阵乘法,再加上激活函数的非线性映射,多层全连接层理论上可以模拟任何非线性变换。但缺点也很明显: 无法保持空间结构。
由于全连接网络的冗余(占整个我拿过来参数的 80%),近期一些好的网络模型使用全局平均池化(GAP)取代 FC 来融合学到的深度特征,最后使用 softmax 等损失函数作为网络目标函数来指导学习过程,用 GAP 替代 FC 的网络通常有较好的预测性能。
全连接的一个作用是维度变换,尤其是可以把高维变到低维,同时把有用的信息保留下来。全连接另一个作用是隐含语义的表达 (embedding),把原始特征映射到各个隐语义节点 (hidden node)。对于最后一层全连接而言,就是分类的显示表达。不同 channel 同一位置上的全连接等价与 1x1 的卷积。N 个节点的全连接可近似为 N 个模板卷积后的均值池化 (GAP)。
GAP
:假如最后一层的数据是 10 个 6x6 的特征图,global average pooling 是将每个特征图计算所有像素点的均值,输出一个数据值,10 个特征图就会输出 10 个值,组成一个 1x10 的特征向量。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。