赞
踩
安装stable diffusion webui过程中发现的问题。
出现报错:
AssertionError: Torch is not able to use GPU; add --skip-torch-cuda-test to COMMANDLINE_ARGS variable to disable this check
然后来看nvidia-smi 的时候发现驱动挂了
1. nvcc -V,查看cuda是可以看到的
说明之前至少安装cuda的时候没挂,应该是服务器启动的问题。
2. 检查了一下
# whereis nvidia
nvidia: /usr/lib/nvidia /usr/share/nvidia /usr/src/nvidia-450.102.04/nvidia
# dkms status
nvidia, 450.102.04, 5.4.0-132-generic, x86_64: installed
说明驱动已经安装。不然的话可以用这个解决方案:
- sudo apt-get install dkms #DKMS全称是Dynamic Kernel Module Support,它可以帮我们维护内核外的这些驱动程序,在内核版本变动之后可以自动重新生成新的模块。
- sudo dkms install -m nvidia -v 410.78 #410.78是安装驱动的版本
ubuntu关机开机后显卡挂了:报错NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. M... - 简书 (jianshu.com)(138条消息) NVIDIA驱动失效简单解决方案:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver._nvdia-smi has failed_AI 菌的博客-CSDN博客
3. 原因:linux系统内核更新和nvidia驱动不适配
4. 解决方案:
期间遇到了另一个问题:
# sudo dkms install -m nvidia -v 450.102.04
Error! Your kernel headers for kernel 5.4.0-144-generic cannot be found.
Please install the linux-headers-5.4.0-144-generic package,
or use the --kernelsourcedir option to tell DKMS where it's located
检查了一下确实没装:
# dpkg-query -s linux-headers-5.4.0-144-generic
dpkg-query: package 'linux-headers-5.4.0-144-generic' is not installed and no information is available
Use dpkg --info (= dpkg-deb --info) to examine archive files.
(138条消息) Linux如何查看内核版本并安装内核头文件linux-headers-generic_高精度计算机视觉的博客-CSDN博客
安装:
sudo apt-get install linux-headers-$(uname -r)
5. 最后再看nvidia-smi就没问题了
编辑
进而也可以去解决下一个安装stabel diffusion时出现的bug了:)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。