赞
踩
在本次AI实战训练营的前10天,我作为一个刚刚接触深度学习的新人,想要在本地配置一个属于自己的AI训练环境。在此期间踩了很多的坑,在此记录,希望对大家有所帮助。
# 命令行 code 法
code . # 使用 vscode 打开当前文件夹, . 是当前文件夹的意思
安装后在可视化窗口配置环境变量(图片转自OpenMMLab官方windows配置教程:OpenMMLab官方环境配置教程)
后续具体细节暂且记不清楚,但跟着官方教程即可配置成功(OpenMMLab官方环境配置教程)
# CUDA 11.3
conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=11.3 -c pytorch
# openmmlab的官方工具
pip install -U openmim
# openmmlab框架的基础引擎
mim install mmengine
# openmmlab框架的视觉基础组件
mim install 'mmcv==2.0.0rc3'
# openmmlab目标检测库
mim install "mmdet>=3.0.0rc6"
pip install opencv-python pillow matplotlib seaborn tqdm pycocotools -i https://pypi.tuna.tsinghua.edu.cn/simple
注:本过程安装可能会出现mmcv与mmdet的版本兼容问题,此时需要将之前安装好的内容卸载干净,换清华源并重新安装。换源语句如下:
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
import torch, torchvision
print('Pytorch 版本', torch.__version__)
print('CUDA 是否可用',torch.cuda.is_available())
import mmcv
from mmcv.ops import get_compiling_cuda_version, get_compiler_version
print('MMCV版本', mmcv.__version__)
print('CUDA版本', get_compiling_cuda_version())
print('编译器版本', get_compiler_version())
import mmdet
print('mmdetection版本', mmdet.__version__)
显示结果如下:
Pytorch 版本 1.12.1
CUDA 是否可用 True
MMCV版本 2.0.0
CUDA版本 11.3
编译器版本 MSVC 192829924
mmdetection版本 3.0.0
进行训练
坑1:
OSError: [WinError 1455] 页面文件太小,无法完成操作。
解决方法:https://blog.csdn.net/weixin_43959833/article/details/116669523
坑2:
untimeError: CUDA out of memory. Tried to allocate 200.00 MiB (GPU 0; 6.00 GiB total capacity; 4.51 GiB already allocated; 0 bytes free; 5.29 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF
解决方法:https://blog.csdn.net/xiyou__/article/details/118529350
训练过程可视化
这方面看教程就好了,主要是Panda库与Matplotlib库的使用。不过那个随机选取颜色这一块启发到我了,原来我自己画图都是傻乎乎的一个个去挑颜色,这里要学习一下。
教程:可视化
模型精简
精简的原因:训练出来的模型中包含很多训练过程中的信息,在预测时使用不到,只会让文件过大,因此要进行精简。
Windows下会报错:FileNotFoundError: [WinError 2] 系统找不到指定的文件。
之后,遂放弃Windows上配置环境。
之后在本地虚拟机中安装了ubuntu 22.04 Server中,尝试是否可以在linux下配置相关环境。
export PATH=$PATH:/home/{username}/miniconda3/bin
存入目录下的./.bashrc文件,并执行source ./.bashrc
)。conda create -n pytorch python=3.9
conda activate pytorch
conda config --add channels defaults conda config --set show_channel_urls true # 设置默认channels conda config --add default_channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main conda config --add default_channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r conda config --add default_channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2 # 设置 custom channels conda config --set custom_channels.conda-forge https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud conda config --set custom_channels.msys2 https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud conda config --set custom_channels.bioconda https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud conda config --set custom_channels.menpo https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud conda config --set custom_channels.pytorch https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud conda config --set custom_channels.pytorch-lts https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud conda config --set custom_channels.simpleitk https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
apt-get install build-essential
apt install libgl1-mesa-glx
5、进行训练,但发现此时的训练为CPU进行的训练,网上查找原因,发现vmware workstation无法对nvidia的gpu进行虚拟化,无法检测的显卡设备,遂放弃vmware workstation的虚拟机方案。
经历了前两次的失败后,最终还是决定在windows11上自带的wsl2上进行环境配置。配置过程如下。
/usr/lib/wsl/lib/libcuda.so.1 is not a symbolic link
。解决方法:解决方法使用了autodl,具体见官网
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。