赞
踩
首先是找到的三篇不错的博客,看完收获很多。链接如下:
学习率(learning rate)属于调参过程的一部分,目前常见的是通过设置schedule,根据特定的规则更新学习率。常用的方式就是learning rate decay。当然在最近提出了增大batchsize来保持学习率的策略,在第三篇博客可以进行了解。
接下来,是自己读这三篇博客和论文的理解。
1、学习率属于需要设置的关键超参数,在最小化训练网络的损失函数时,学习率缩放了权重更新的幅度。学习率太低,训练速度会很慢;学习率太高,有可能梯度下降过程中直接跳过了最低点,训练变得发散。
2、新知识点损失函数地图(loss landscape) 论文地址。 用来可视化损失函数的曲率,得到三维立体图形,研究多种因素(网络架构,各种超参数,优化器等)对损失函数形态的影响。
3、设置最优的学习率,是为了损失函数下降的最快。一共有三种阶段,损失函数基本不动(lr低),损失函数下降最
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。