赞
踩
AlexNet的新技术特点
学习细节
AlexNet训练采用的是随机梯度下降(Stochastic gradient descent),每批图像大小为128,动力为0.9,权重衰减为0.005,
其中i是迭代指数,v是动力变量,ε是学习率,是目标关于w、对求值得导数在第i批样例上得平均值。我们用一个均值为0、标准差为0.01的高斯分布初始化了每一层的权重。我们用常数1初始化了第二、第四和第五个卷积层以及全连接隐层的神经元偏差。该初始化通过提供带正输入的ReLU来加速学习的初级阶段。我们在其余层用常数0初始化神经元偏差。
对于所有层都是用了相等的学习率,这是在整个训练过程中手动调整的。我们遵循的启发是,当验证误差率在当前学习率下不再提高时,就将学习率除以10。学习率初始化为0.01,在终止前降低三次。作者训练该网络时大致将这120万张图像的训练集循环了90次。
ReLU激活函数
LRN(Local Response Normalization)
Local Response Normalization要硬翻译的话是局部响应归一化,简称LRN,实际就是利用临近的数据做归一化。
对局部神经元的活动创建竞争机制,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强了模型的泛化能力。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。