赞
踩
梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent是最常采用的方法之一,另一种常用的方法是最小二乘法。在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和模型参数值。反过来,如果我们需要求解损失函数的最大值,这时就需要用梯度上升法来迭代了。在机器学习中,基于基本的梯度下降法发展了两种梯度下降方法,分别为随机梯度下降法和批量梯度下降法。
梯度:就是对f求偏导,注意梯度是一个向量,即有方向有大小。
1. 梯度的计算
在机器学习和统计参数估计问题中目标函数经常是求和函数的形式,其中每一个函数都对应一个样本,当样本量极大时,梯度的计算就变得非常耗时耗力。
2. 学习率的选择
学习率选择过小会导致算法收敛太慢,学习率选择过大容易导致算法不收敛。如何选择学习率需要具体问题具体分析。
3. 靠近极小值时收敛速度减慢。
梯度下降有可能得到的是局部最小值。如果损失函数是凸函数,则一定是最优解。
迭代终止的条件是函数的梯度值为0(实际实现时是接近于0 即可),此时认为已经达到极值点。可以通过判定梯度的二范数是否充分接近于0 而实现。
梯度更新规则:BGD 采用整个训练集的数据来计算 cost function 对参数的梯度
缺点:需要对整个数据都计算梯度,慢!遇到数据量大的就非常的不可取了。
for i in range(nb_epochs):
params_grad = evaluate_gradient(loss_function, data, params)
params = params - learning_rate * params_grad
它得到的虽然是一个全局最优解,但每迭代一步,都要用到训练集所有的数据,如果样本数据很大,这种方法迭代速度就很慢。
相比而言,随机梯度下降可避免这种问题。
梯度更新规则:和 BGD 的一次用所有数据计算梯度相比,SGD 每次更新时对每个样本进行梯度更新,对于很大的数据集来说,可能会有相似的样本,这样 BGD 在计算梯度时会出现冗余,而 SGD 一次只进行一次更新,就没有冗余,而且比较快,并且可以新增样本。对每个样本算出的params_grad作为更新依据。
for i in range(nb_epochs):
np.random.shuffle(data)
for example in data:
params_grad = evaluate_gradient(loss_function, example, params)
params = params - learning_rate * params_grad
缺点:1)噪声多,cost function有严重的震荡;2)每个迭代的方向并不是最优的方向,虽然快,但准确度下降,不是全局最优解,4)可以收敛,但很可能跳过最小值;5)如果学习率调低些,收敛效果和BSG一样;5)随机性很大,只能从期望上看这个等于正确的导数。
小结:
随机梯度下降法、批量梯度下降法相对来说都比较极端,简单对比如下:
梯度更新规则:MBGD 每一次利用一小批样本,即 n 个样本进行计算,这样它可以降低参数更新时的方差,收敛更稳定,另一方面可以充分地利用深度学习库中高度优化的矩阵操作来进行更有效的梯度计算。和 SGD 的区别是每一次循环不是作用于每个样本,而是具有 n 个样本的批次。
超参数设定值: n 一般取值在 50~256
for i in range(nb_epochs):
np.random.shuffle(data)
for batch in get_batches(data, batch_size=50):
params_grad = evaluate_gradient(loss_function, batch, params)
params = params - learning_rate * params_grad
缺点:1)learningrate太小收敛慢,太大就一直震荡甚至偏离(有一种措施是先设定大一点的学习率,当两次迭代之间的变化低于某个阈值后,就减小 learning rate,不过这个阈值的设定需要提前写好,这样的话就不能够适应数据集的特点。)
通过比较牛顿法和梯度下降法的迭代公式,可以发现两者及其相似。海森矩阵的逆就好比梯度下降法的学习率参数alpha。牛顿法收敛速度相比梯度下降法很快,而且由于海森矩阵的的逆在迭代中不断减小,起到逐渐缩小步长的效果。
牛顿法的缺点就是计算海森矩阵的逆比较困难,消耗时间和计算资源。
a. 牛顿法使用的是目标函数的二阶导数,在高维情况下这个矩阵非常大,计算和存储都是问题。
b. 在小批量的情况下,牛顿法对于二阶导数的估计噪声太大。
c.目标函数非凸的时候,牛顿法容易受到鞍点或者最大值点的吸引。
- Hessian 矩阵不定的点称为鞍点,它不是函数的极值点。
鞍点 (saddle point)的数学含义是: 目标函数在此点上的梯度(一阶导数)值为 0, 但从该点出发的一个方向是函数的极大值点,而在另一个方向是函数的极小值点- 梯度下降法和牛顿法都不能保证找到函数的极小值点。因为梯度下降法可能找到的是局部最小点,牛顿法可能收敛到鞍点,不是极值点。
梯度下降法并不是下降最快的方向,它只是目标函数在当前的点的切平面(当然高维问题不能叫平面)上下降最快的方向。
牛顿方向(考虑海森矩阵)才一般被认为是下降最快的方向,可以达到Superlinear的收敛速度。梯度下降类的算法的收敛速度一般是Linear甚至Sublinear的(在某些带复杂约束的问题)。
def sgd(w, dw, config=None):
"""
单纯的sgd实现
"""
if config is None: config = {}
config.setdefault('learning_rate', 1e-2)
w -= config['learning_rate'] * dw
return w, config
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。