当前位置:   article > 正文

autodl实践经验------3_autodl 可不可以同时跑多个程序

autodl 可不可以同时跑多个程序

简单记录一下遇到的新问题:

显存跑炸了。

但是我发现两个问题:

1、要为解冻阶段留裕量,我前面只考虑了冻结阶段的batch_size在显存允许的情况下尽可能大,然后一进入解冻阶段,显存就炸了。

所以我换成了batch_size:32、16,num_workers:8。后面看看解冻阶段会不会炸。

2、我发现系统盘内存差点不够,因为我yolov3项目输出位置在系统盘,我不太好改输出位置,所以我直接改了存储周期,我每10个epoch存一个权值文件,应该够。

3、考虑到调整参数对训练速度影响很小,所以考虑减少数据集至5万张,并且下次多模型共同训练,但一定要考虑解冻阶段显存够不够,应该最多同时训练两个模型。

4、用python train.py && shutdown或者干脆不用shutdown,我用了一次python train.py; shutdown,结果出错了连自己报错都看不到。之前用python train.py && shutdown是看到是因为自己显存炸了,就可以调试。宁可多花点钱,也别花冤枉钱。我怀疑是因为我10个epoch保存一次,算训练完一次,它可能就判断我python train.py运行的结束就给关机了。

5、只有跟你的实例一样的区并且一样配置的GPU空闲才能开机。我现在看着有3核、8核的都有空闲但是开不了机,所以还是得把所有东西放系统盘然后保存镜像迁移。

6、不知道为什么,换了个8核的titanxp明显快了很多,以后一定弄个核多的,可以省很多钱!

7、目前我冻结模式用了4094MiB显存,大概30分钟一个epoch,现在解冻模式大概35分钟一个epoch,然后显存用了9576MiB,足足两倍!

8、不知道是不是bug,我在一个终端连续ctrl+z然后重新训练,显存会飙升

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/553849
推荐阅读
相关标签
  

闽ICP备14008679号