赞
踩
什么是梯度? 区分:梯度向量、Jacobian、Hessian矩阵
求梯度向量的公式:【以下公式的证明点击此处查看】
举一个例子:
感知机模型中经验风险为:
假设目标函数为经验风险最小化,那么对 Remp(w, b) 求梯度有:(使用上面提到的求梯度的公式很容易得到以下结果)
由于梯度是航叔上升或下降最快的方向,所以自然的得到参数的更新公式:
很显然,这是经过训练集的所有样本后才更新一次参数。这就是批量梯度下降
只需要将上面的求和去掉就变成了经过一个样本更新一次参数。即:随机梯度下降
随机梯度下降的核心是每经过到训练集的一个样本就更新一次参数。而对于参数更新的公式也可以不同。
原始形式的随机梯度下降:就是前面介绍的,根据批量梯度下降的参数迭代公式改进得到。
对偶形式的随机梯度下降:根据原始形式的随机梯度下降的参数迭代公式改进得到。降低了计算量。
注意:只要某方法有对应的对偶形式,那么它一定是对原始形式在以下3个方面之一做了优化:
- 降低时间复杂度
- 降低空间复杂度
- 原问题无法解决,使用对偶形式就可以解决。
还是拿感知机模型的例子举例:
原始形式:
改进过程:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。