赞
踩
场景描述: 由于训练服务器卡顿, 服务器重启后, 再次跑模型的时候, 发现cuda不可用, 于是输入“nvidia-smi”才发现了一个错误,如下:
NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver
这是由于重启服务器,linux内核升级导致的,由于linux内核升级,之前的Nvidia驱动就不匹配连接了,但是此时Nvidia驱动还在,可以通过命令 nvcc -V 找到答案
但是输入nvcc -V 命令的时候, 发现没有此命令, 说明没有安装, 然后安装nvidia-cuda-toolkit, 安装命令为: sudo apt install nvidia-cuda-toolkit
安装完成之后, 使用nvcc -V 命令, 展示如下:
上网搜索各种方案之后, 解法方法如下:
第一步: 安装dkms:
sudo apt-get install dkms
第二步: 查看本机连接不上的驱动版本
ls -l /usr/src/
可以看到有个一nvidia的文件, 这里是nvidia-470.94. 如果没有这类文件, 请先下载对应的文件.下载
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。