当前位置:   article > 正文

服务器重启之后NVIDIA出现问题原因汇总_重启服务器 cuda

重启服务器 cuda

问题一: nvidia-smi报错:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver 原因及避坑解决方案

        场景描述: 由于训练服务器卡顿, 服务器重启后, 再次跑模型的时候, 发现cuda不可用, 于是输入“nvidia-smi”才发现了一个错误,如下:

NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver

        这是由于重启服务器,linux内核升级导致的,由于linux内核升级,之前的Nvidia驱动就不匹配连接了,但是此时Nvidia驱动还在,可以通过命令 nvcc -V 找到答案

        但是输入nvcc -V 命令的时候, 发现没有此命令, 说明没有安装, 然后安装nvidia-cuda-toolkit, 安装命令为: sudo apt install nvidia-cuda-toolkit

安装完成之后, 使用nvcc -V 命令, 展示如下:

上网搜索各种方案之后, 解法方法如下:  

第一步: 安装dkms:

sudo apt-get install dkms

第二步: 查看本机连接不上的驱动版本

ls -l /usr/src/

可以看到有个一nvidia的文件, 这里是nvidia-470.94. 如果没有这类文件, 请先下载对应的文件.下载

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/397960
推荐阅读
相关标签