当前位置:   article > 正文

Autodl服务器上训练YOLOv7改进代码时,突然中断并报错:OSError: [Errno 28] No space left on device_autodl内存不够

autodl内存不够

参考链接

报错原因

IO读写的时候,临时占用的内存不够,从而需要引入新的临时文件夹

解决方案

分析原因:

  1. 开启--cache-images训练参数:因为最近为了加速训练YOLOv7,所以听取网友建议,打开了训练参数--cache-images,这个参数的作用就是将训练用到的数据加载到内存中,这样就能加快数据读取速度从而训练得更快
  2. 过度占用系统盘autodl-nas:训练结果我是保存在内蒙A区的公用网盘autodl-nas中的,所以在生成训练权重过程中可能就会占用系统盘什么进程巴拉巴拉的吧,不懂(感觉autodl-nas的作用就像C盘系统盘,如果某一时间段系统盘占满了,程序就会崩溃,显示内存不足。而autodl-tmp就相当于D盘,随便存放多大的数据,都不会影响电脑的数据读取,也就是不会导致程序崩溃)

解决:

因为是训练到中途断掉的,所以我将开启断点训练。针对OSError: [Errno 28] No space left on device最核心的步骤其实是将训练结果保存在autodl-tmp(不要保存在autodl-nas中了!)

  1. 拷贝已有的结果到autodl-tmp文件夹:Linux命令是cp -r dir1 dir2

例如,我是:

cp -r /root/autodl-nas/NeimengA_runs/train/yolov7-FasterNet-new-from-yolov7-distillation2 /root/autodl-tmp
  • 1
  1. 更改已拷贝到autodl-tmp文件夹中的训练文件夹中opt.yaml相应内容:更改projectsave_dir这两个参数,将它们指定到/root/autodl-tmp打头的某一具体路径中(自己视情况而定去安排是哪个文件夹)

例如,我是:

project: /root/autodl-tmp
save_dir: /root/autodl-tmp/yolov7-FasterNet-new-from-yolov7-distillation2
  • 1
  • 2
  1. 开始断点训练:核心是设置使用resume参数
    声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/166263?site
推荐阅读
相关标签