当前位置:   article > 正文

超全超强深度学习环境搭建--cuda、cuDnn、pytorch、torch、torchvision_torch.fx anzhuang

torch.fx anzhuang

最近搭建环境搞的头的大了,网上大部分都是洗稿+抄袭,查很长时间资料才能解决问题。现在我把这环境搭建梳理一下,并给出一些问题的解决方法。

一、cuda安装

这里有个坑就是cuda不仅和cdnn版本对应,还要和torch版本对应!网上教程都是说只看【驱动版本】和【cuda支持版本上限】但是还要去https://download.pytorch.org/whl/torch_stable.html这个网站查一下有没有你所下载cuda版本对应的torch版本,比如说就没有cu112对应的torch版本。

cu113/torch-1.10.2%2Bcu113-cp36-cp36m-win_amd64.whl
参数含义:cu113表示需要cuda11.3,torch版本是1.10,2,cp36指需要的是python3.6,win系统。

这个网站上的资源名称有的是cpu开头有的是cu开头,区别是:cpu开头的torch不支持gpu计算,只有cu开头的资源才支持使用gpu训练数据。

1、查询驱动版本和cuda支持版本上限

cmd中输入nvidia-smi可以看到驱动器版本和cuda版本。!!注意:这里的cuda版本不是电脑中下载的版本,而是电脑支持的最高版本。
在这里插入图片描述

2、选定cuda版本

https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html查询本机驱动版本所支持的cuda。!!注意:选择下载的版本不能超过上个步骤查询的电脑支持的cuda的最高版本,而且一定要选择一个有对应torch版本的cuda进行下载!!我第一次下载的cuda114,但是没有114对应的torch版本,还是无法搭建环境!!
在这里插入图片描述

3、下载cuda并安装

完成上述版本的确定后,去https://developer.nvidia.com/cuda-toolkit-archive下载cuda,如果不是第一次下载cuda了,也不用卸载原来的版本,直接选精简安装就好,因为会出现两个版本的文件夹,所以这个不用担心。
在这里插入图片描述
接着在环境变量的系统变量中添加路径
在这里插入图片描述

4、检查cuda是否安装成功

在cmd中输入nvcc --version查看版本号,输入set cuda查看设置的CUDA环境变量。

二、cuDnn安装

1、查看cuda版本对应的cuDNN

https://tensorflow.google.cn/install/source_windows?hl=zh-cn#cpu查看所下载cuda对应的cuDnn
在这里插入图片描述

2、下载cuDNN

下载地址:https://developer.nvidia.com/rdp/cudnn-archive

3、安装配置cuDNN

先把下载的 cuDNN 解压缩,解压后,有三个文件夹,把三个文件夹拷贝到对应cuda版本的安装目录下;如下图,其中的v11.0就是下载的cuda的版本号。拷贝时会提示有同名的现象,不用管,直接确定。
在这里插入图片描述在系统环境变量中的 path添加以下路径:

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.0\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.0\include
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.0\lib
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.0\libnvvp
  • 1
  • 2
  • 3
  • 4

在这里插入图片描述

4、检查cuDnn是否安装成功

进入到cuda对应版本的 …\extras\demo_suite路径下,然后在地址栏输入cmd后按下回车,分别执行
.\bandwidthTest.exe.\deviceQuery.exe
输入的内容最下面出现Result = PASS字样就是成功。
在这里插入图片描述在这里插入图片描述

三、torch安装

这里要先去安装anaconda,就是你可以把anaconda看成一个存放各种虚拟环境的仓库,每个虚拟环境之间是独立的,每个虚拟环境中可以存放各种资源包,比如torch、 NumPy等。举个例子:这个仓库中,我存放了一个名叫dhhzstsl的虚拟环境,我可以在在这个环境中下载Numpy资源包,而且dhhzstsl这个虚拟环境中的包不会和其他环境的资源包产生冲突。【这里说的资源包是import xxx的xxx】

1、创建、激活环境

创建环境:conda create -n unet python==3.7.0
注意:环境名字自定,这里我创建了一个名为unet的环境,Python版本选择的是3.7,推荐3.6以上
激活环境:conda activate unet

2、配置环境

进入pytharm->settings->Python interpreter
在这里插入图片描述选择anaconda下创建的unet环境中的python.exe
在这里插入图片描述

3、torch离线包安装

推荐最为稳妥的方法,就是下载离线whl然后导入到环境中。
https://download.pytorch.org/whl/torch_stable.html
下载torch,一定要看准cuda对应的torch版本,比如下图资源就是要下载win操作系统下,python=3.7、cuda=11.0,对应的torch=1.7.1

【torch、torchvision、torchaudio】版本对应关系,实测cuda==11.0,torch=1.7.1,torchvision=0.8.2对应关系正确。
https://blog.csdn.net/qq_38308388/article/details/130947484
在这里插入图片描述然后进入unet环境 输入pip install whl的路径
在这里插入图片描述

四、检测是否可以用GPU训练

在pytharm的console控制台输入import torch
然后输入print(torch.cuda.is_available())如果输出True则成功。当然还可以看torch的版本1.7.1+cu110
在这里插入图片描述

五、torchvision安装

torchvision的安装和三(3)torch离线包安装的过程一样,还是要注意对应的版本。
【torch、torchvision、torchaudio】版本对应关系,实测cuda==11.0,torch=1.7.1,torchvision=0.8.2对应关系正确。

https://blog.csdn.net/qq_38308388/article/details/130947484
  • 1

如果安装完torchvision报错ModuleNotFoundError: No module named ‘torch.fx‘

ModuleNotFoundError: No module named ‘torch.fx‘
  • 1

应该就是下载的torchvision和torch版本不对应,在anaconda中进入对应的环境输入pip list查看当前环境中的资源包。找到torch和torchvision的版本,如果不对应就pip unintall torchvison卸载torchvision,去https://download.pytorch.org/whl/torch_stable.html下载对应的torchvision离线whl包。注意:是torchvision
在这里插入图片描述在这里插入图片描述

六、几个重要的对应关系的网站和资源

(1)torch、torchvision等whl资源下载:https://download.pytorch.org/whl/torch_stable.html–用于①查找有没有cuda版本对应的torch版本,别下载完cuda才发现没有对应版本的torch。②下载whl资源
(2)cuda和cuDNN对应关系:https://tensorflow.google.cn/install/source_windows?hl=zh-cn#cpu
(3)torch、torchvision、torchaudio版本对应关系:https://blog.csdn.net/qq_38308388/article/details/130947484

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/128630
推荐阅读
相关标签
  

闽ICP备14008679号