autodl实践经验------3_autodl 可不可以同时跑多个程序

作者：盐析白兔 | 2024-05-08 09:04:46

踩

autodl 可不可以同时跑多个程序

简单记录一下遇到的新问题：

显存跑炸了。

但是我发现两个问题：

1、要为解冻阶段留裕量，我前面只考虑了冻结阶段的batch_size在显存允许的情况下尽可能大，然后一进入解冻阶段，显存就炸了。

所以我换成了batch_size:32、16,num_workers:8。后面看看解冻阶段会不会炸。

2、我发现系统盘内存差点不够，因为我yolov3项目输出位置在系统盘，我不太好改输出位置，所以我直接改了存储周期，我每10个epoch存一个权值文件，应该够。

3、考虑到调整参数对训练速度影响很小，所以考虑减少数据集至5万张，并且下次多模型共同训练，但一定要考虑解冻阶段显存够不够，应该最多同时训练两个模型。

4、用python train.py && shutdown或者干脆不用shutdown，我用了一次python train.py; shutdown，结果出错了连自己报错都看不到。之前用python train.py && shutdown是看到是因为自己显存炸了，就可以调试。宁可多花点钱，也别花冤枉钱。我怀疑是因为我10个epoch保存一次，算训练完一次，它可能就判断我python train.py运行的结束就给关机了。

5、只有跟你的实例一样的区并且一样配置的GPU空闲才能开机。我现在看着有3核、8核的都有空闲但是开不了机，所以还是得把所有东西放系统盘然后保存镜像迁移。

6、不知道为什么，换了个8核的titanxp明显快了很多，以后一定弄个核多的，可以省很多钱！

7、目前我冻结模式用了4094MiB显存，大概30分钟一个epoch，现在解冻模式大概35分钟一个epoch，然后显存用了9576MiB，足足两倍！

8、不知道是不是bug，我在一个终端连续ctrl+z然后重新训练，显存会飙升

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/盐析白兔/article/detail/553849