赞
踩
担心发生梯度爆炸造成的,将学习率调为了0,但在第二轮任然变成了nan
原因:使用了半精度进行更新或者参与,导致的 方法:将其中参与的half替换成float即可解决
loss.backward() model.float() # add this here optimizer.step()