当前位置:   article > 正文

如何在AutoDL跑起一个深度学习模型_autodl系统盘满了

autodl系统盘满了

租用GPU服务器

AutoDL-品质GPU租用平台-租GPU就上AutoDL

在算力市场选择服务器,选择所要跑的代码对应版本的pytorch或tensorflow环境和版本。

由于我们现在还没有配置好,先关机,再选择无卡模式开机,比较便宜。

上传数据集

数据一般要放在数据盘,也就是autodl-tmp文件夹下。

AuToDL官方文档给的传输方式是用XShell和Xftp7(都是教育免费的),但下载好后发现其原理就是 SSH+SFPT,用FlashFXP或其他文件传输软件也可以(尽量用SFPT,Linux默认不支持FPT,需要额外安装服务)。因为官网有XShell的教程,我就只贴FlashFXP 

如果文件太大,可将其分割,上传后合并(如果不分割可能面多次临传输失败并需全部重传的风险)。但需注意:合并时,分割文件和总文件同时存在,占用2倍空间。以下分别是分割和合并命令。注意split是Linux命令,在windows下使用应下载GetGnuWin32(已经很老了,维护较少)MSYS2(需搭配MingGW)、 Cygwin,以使用split。

  1. #分割命令
  2. split -b 500m CVPR2016.rar log_
  3. #合并命令
  4. cat log_* > CVPR2016.rar
  5. #检测MD5
  6. #Windows(尽管装了但没有md5sum
  7. certutil -hashfile filename MD5
  8. #Linux
  9. md5sum filename
  10. #解压(e解压到当前文件夹;x解压到指定路径下)
  11. unrar e sourcefile destPath
  12. #ps:unrar下载:
  13. apt-get update
  14. apt-get install rar unrar

传输失败的案例,原因是没有传到数据盘,系统盘满了。而且恢复后文件依然错误。 

搭建运行环境

用VScode配置SSH即可在本机编辑程序并运行。

AuToDL已经帮我们搭建了miniconda和pytorch环境。我们需要注意的是尽量包版本与原程序一致。否则会发生很多冲突。

  1. conda init bash
  2. #重启bash

重开一个bash(init有提示,必须重开),列出现有环境,进入base

  1. conda env list
  2. conda activate base

 配置开发所需环境

pytorch/vision: Datasets, Transforms and Models specific to Computer Vision (github.com)
  1. python
  2. #进入python
  3. import torch
  4. torch.__version__
  5. import torchvision
  6. torchvision.__version__

下载用到的包

如果源代码提供了requirements.txt.

  1. #制作
  2. pip freeze > requirements.txt
  3. #使用
  4. conda install --yes --file requirements.txt

如果源代码提供了requirements.yml

  1. #制作
  2. conda env export > requirements.yml
  3. #使用
  4. conda env create -f requirements.yml

train和test

看看作者有没有提供demo.pth.tar,这是保存的训练好的模型,可以直接测试。虽然它以tar结尾,但是不能解压,会被torch直接load。

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/553856
推荐阅读
相关标签
  

闽ICP备14008679号