赞
踩
3.5课节有一样的图,不断运行梯度下降,成本函数越靠近等高线图的中心圈,w,b越接近最优解。
批量梯度下降:每一步梯度下降都会考虑所有训练样本。在计算导数项的求和时,我们会计算所有训练样本求和而不是计算部分训练样本求和。
使用梯度下降算法自动优化w,b。
成本在增加,w,b的绝对值也在增加,没有靠近成本函数最小值。
可视化,可以看到w,b在正负之间震荡,成本在增加。
目前接触到的梯度下降是批量梯度下降,表示每次计算梯度,我们都会包括所有的训练样本。其它类型的梯度下降可能计算部分训练样本。我们需要设置迭代次数来进行梯度下降,先写好计算梯度也就是计算导数项的函数,然后循环迭代次数来不断计算梯度并更新梯度,同时也保存好每次更新的w,b。通过二维关系图和等高线图,我们看到梯度下降一开始可以大幅度降低成本函数,随着迭代次数提升,更新的幅度慢慢减少。而如果学习率设置过大,梯度下降会导致成本函数的值上升。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。