赞
踩
训练网络时出现loss=nan的情况,caffe不会报错,但是显然这样是不对的。 将solver.prototxt文件中的base_lr减小一点之后,这个问题就不再出现了。我一般先将base_lr降为原来的0.1倍,一般这样就可以了,如果实在不行的话就再降10倍。
好像知道为什么这样就可以,learning rate到底是怎么影响整个网络的捏?