当前位置:   article > 正文

YOLOv9训练不中断,从断点处训练的方法_yolov9早停

yolov9早停

1. 训练过程中意外中断,未完成训练预期的epoch数量

不小心多开了一个程序,导致程序从98次中断了,想要继续从98开始训练:

将train_dual.py文件中的patser中参数resume,将其设置为default=True:

parser.add_argument('--resume', nargs='?', const=True, default=True, help='resume most recent training')

注意如果想从上一次训练结果中恢复训练,那么保证训练结果(存放在/runs/train目录下)在保存目录中代号为最大的,也就是断点的那次存放的结果是在最后一个文件夹的,断点前训练的设置参数、超参数和每轮训练效果在时间最迟的文件夹下的opt.yaml、hyp.yaml、results.csv中有记录

然后运行train_dual.py:

就可以用继续第98轮了

2.训练完了,但是未收敛,在这个基础上继续训练多一些轮次

不是直接在train_dual.py设置weight参数为训练好的权重(last.pt),然后设置想要继续训练的epoch,这样学习率等超参数启动时还是按照默认的,并不是继续上一轮的训练。

当然如果超参数设置和之前的一样,应该是没有问题的。

如果为了确保准确,修改方式如下:

修改方式:(按步骤进行)

1. 将train_dual.py文件中,epoch参数改成想要原始轮数+继续训练的轮数。比如训练了100轮,还想训练200轮,就改成100+200=300轮,也就是最终要训练300轮。resume设置为default=True

2. 对utils/torch_utils.py中的smart_resume()函数进行更改:

添加一行代码:ckpt[‘epoch’] =100  #原本训练完的epoch
修改代码:start_epoch = ckpt[‘epoch’](后面不加1)
注意:这里的修改是为了断点训练,如果不再需要断点训练,请将修改都还原。

也就是把:

  1. # start_epoch = ckpt['epoch'] + 1
  2. # 上面那行改成下面两行
  3. ckpt['epoch'] =100 # 原本训练完的epoch
  4. start_epoch = ckpt['epoch']

3. 在train_dual.py文件中,找到opt.cfg, opt.weights, opt.resume

将下面两行代码

  1. opt = argparse.Namespace(**d) # replace
  2. opt.cfg, opt.weights, opt.resume = '', str(last), True # reinstate

修改成:

  1. init_epochs = opt.epochs # 记录最开始由epochs参数设定的数值,replace这行代码,将epochs替换成了原始的epochs数值
  2. opt = argparse.Namespace(**d) # replace
  3. # opt.cfg, opt.weights, opt.resume = '', str(last), True # reinstate
  4. opt.cfg, opt.weights, opt.resume,opt.epochs = '', str(last), True, init_epochs # reinstate

恢复成设定的epochs,完成以上3步,可以进行继续训练了,python train_dual.py

注意:训练完成之后,不再需要断点训练,请将修改都还原

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/273836?site
推荐阅读
相关标签
  

闽ICP备14008679号