赞
踩
作者:禅与计算机程序设计艺术
深度学习模型训练过程中的梯度消失或者爆炸现象,是训练过程中经常出现的问题。为了解决这个问题,大量研究人员提出了许多方法来缓解梯度消失或爆炸,如权重初始化、丢弃法、正则化等。本文将介绍一种在深度学习领域里广泛使用的技巧——批量归一化(Batch Normalization)和批量梯度下降(BGD),并通过相关理论和实践案例给读者带来一些帮助。
当一个函数的导数接近或等于零时,该函数的梯度就会变得很小,这样做会导致网络中的参数无法有效更新,从而使网络性能不好,甚至发生崩溃。这一现象被称作“梯度消失”或“vanishing gradient”。典型的表现形式是神经元输出值较小,并且随着输入参数的增加,输出值逐渐减少的情况。
另一种现象叫做“梯度爆炸”,是指神经网络中某些层的参数更新幅度过大,使得损失函数在迭代更新参数时震荡不平稳。导致这种现象的原因是前向传播计算出的梯度太大,而反向传播传回的梯度修正值又很小。这就意味着每次迭代更新参数时,神经网络都在无意识地“喂养”自己,使得收敛速度慢,甚至陷入局部最小值的情况。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。