赞
踩
理解梯度下降,
第一点:梯度下降 是作用于 代价函数的(这里将损失函数和代价函数放在一起,风险函数与认为是代价函数)
第二:
这里的线性回归的代价函数是 用 原函数与预测到的函数差的平均方差来描绘的
分别对θ1和θ2求导得到的两个梯度函数
在两个梯度函数里头计算所有的梯度方向,合并起来就是梯度下降最快i的方向
1)批量梯度下降(BGD) :算所有的梯度,求平均方向,作为批量梯度的梯度下降方向,
优点:找到了梯度下降最低点的方向,收敛速度快缺点:但计算所有数据导致用时长,训练时间长
2)随机梯度下降SGD:随机找一个数据,在这个,一次接一次的更新梯度过程曲折,收敛速度很慢
缺点:每次下降的方向不是全局梯度最低点的方向,不能很快收敛
优点:每次用一个样本,速度快,训练时间短
3)小批量梯度下降 MBGB (也有称SGB)综合了上面两个的优点,一个折中办法
注意:应用批量和小批量时要打乱数据
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。