赞
踩
安装Centos7系统:
分区参数,我采用的是标准分区。
200MB 主分区 挂载点: /boot
102399MB 逻辑分区 挂载点: /(根目录)
192922MB 挂载点: swap(虚拟内存)
5705082MB 逻辑分区 挂载点: /home
总共6TB
CentOS7.3安装NVIDIA-1080ti驱动、cuda、cudnn、TensorFlow
主要参考:
https://www.cnblogs.com/mar-q/p/7482720.html
CUDA支持显卡版本
https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
CentOS7系统内核
3.10.0-693.el7.x86_64
CentOS7系统图形界面与命令行的转换:
如果在图形界面下,按:Ctrl+Alt+F2,可以进入命令行模式
如果在命令行模式,按Ctrl+Alt+F1,可以进入图形界面
也可以使用命令行模式:
输入 init 3 命令 切换到dos界面
输入 init 5命令 切换到图形界面
1.安装显卡驱动出错:
You appear to be running an X server; please exit X before
ctrl+alt+2进入命令行后,关闭CentOS的X server:
sudo service gdm stop --关闭X server
sudo service gdm start --开启X server
CentOS7 关闭X Server的另一种方法:
https://blog.csdn.net/rznice/article/details/53386436
systemctl stop gdm.service来关掉X Server
2.ERROR: The Nouveau kernel driver is currently in use by your system.
这要重新建立initramfs文件:
https://blog.csdn.net/Fortuna_i/article/details/83141070
下面这个命令是备份,这个img文件,我输入uname -r查看我的系统版本为:3.10.0-693.el7.x86_64
但是
mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
dracut -v /boot/initramfs-$(uname -r).img $(uname -r)
3.ERROR: unable to find the kernel source tree for the current running kernel
uname -r查看当前内核版本
rpm -qa | grep kernel 列出所有的img包
然后可以remove你不需要的包,
重新建立initramfs image文件
# mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
# dracut /boot/initramfs-$(uname -r).img $(uname -r)
你的grub选择界面就会出现新的启动系统内核选择了。
4.an error occurend while performing the step:"Building kernel modules" ,see /var/log/nvidia-installer
根据网上的说法,这个错误就是因为linux的内核版本不断在更新,显卡驱动无法跟最新的内核匹配,所以最简单的方法就是去NIVIDIA官网下载最新的驱动,
见网址:
https://blog.csdn.net/clever_wr/article/details/91897337
实际上我之前在用命令:nividia-detect v 查看显卡信息的时候,它就提示我下载430.26版本的linux驱动,但是430.26版本的驱动是GEFORCE的显卡驱动,
虽然GEFORCE RTX 2080的显存和Tesla k40m的一样大。于是抱着试一试的心态,我用Tesla k40m安了这个GEFORCE RTX 2080的驱动,居然成功了!!!
卸载CUDA:
# cd /usr/local/cuda-8.0/bin/
# ./uninstall_***
我在使用nvidia-smi的时候,它提示我使用CUDA10.2,但是实际上最新的CUDA版本是10.1,于是我索性下载了10.1的。
CUDA 10.1下载地址:
安装失败:
please see CUDA_Installation_Guide_Linux.pdf in /usr/local/cuda-8.0/doc/pdf for detailed information on setting up CUDA
上面这个是安装CUDA的参考文档,没什么用。
于是我不用.run文件来安装CUDA10.1,我打算用rpm文件来。
下载之后使用命令安装:
- $ sudo rpm -i cuda-repo-rhel7-10-1-local-10.1.168-418.67-1.0-1.x86_64.rpm
- $ sudo yum clean all
- $ sudo yum install cuda
输出:
[admin@daddy cuda]$ sudo rpm -i cuda-repo-rhel7-10-1-local-10.1.168-418.67-1.0-1.x86_64.rpm
警告:cuda-repo-rhel7-10-1-local-10.1.168-418.67-1.0-1.x86_64.rpm: 头V3 RSA/SHA512 Signature, 密钥 ID 7fa2af80: NOKEY
[admin@daddy cuda]$ sudo rpm -i cuda-repo-rhel7-10-1-local-10.1.168-418.67-1.0-1.x86_64.rpm
警告:cuda-repo-rhel7-10-1-local-10.1.168-418.67-1.0-1.x86_64.rpm: 头V3 RSA/SHA512 Signature, 密钥 ID 7fa2af80: NOKEY
软件包 cuda-repo-rhel7-10-1-local-10.1.168-418.67-1.0-1.x86_64 已经安装
报错:
ERROR:Cannot find a valid baseurl for repo: base/7/x86_64
solution: CentOS7用yum安装软件显示错误:cannot find a valid baseurl for repo: base/7/x86_64
https://blog.csdn.net/qq_37922264/article/details/81054673
ERROR:yum被packagekit占用问题
https://blog.csdn.net/zhixianjava/article/details/77850710
又输出:
错误:软件包:cuda-samples-10-1-10.1.168-1.x86_64 (cuda-10-1-local-10.1.168-418.67)
需要:libX11-devel
错误:软件包:3:nvidia-driver-cuda-418.67-4.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
需要:opencl-filesystem
错误:软件包:1:libglvnd-opengl-1.0.1-0.6.git5baa1e5.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
需要:libglvnd(x86-64) = 1:1.0.1-0.6.git5baa1e5.el7
已安装: 1:libglvnd-1.0.1-0.8.git5baa1e5.el7.x86_64 (@base)
libglvnd(x86-64) = 1:1.0.1-0.8.git5baa1e5.el7
可用: 1:libglvnd-1.0.1-0.6.git5baa1e5.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
libglvnd(x86-64) = 1:1.0.1-0.6.git5baa1e5.el7
错误:软件包:cuda-samples-10-1-10.1.168-1.x86_64 (cuda-10-1-local-10.1.168-418.67)
需要:libXmu-devel
错误:软件包:cuda-samples-10-1-10.1.168-1.x86_64 (cuda-10-1-local-10.1.168-418.67)
需要:mesa-libGLU-devel
错误:软件包:3:nvidia-driver-libs-418.67-4.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
需要:libvdpau(x86-64) >= 0.5
错误:软件包:3:nvidia-driver-418.67-4.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
需要:libva-vdpau-driver(x86-64)
错误:软件包:3:dkms-nvidia-418.67-1.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
需要:dkms
错误:软件包:3:nvidia-settings-418.67-1.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
需要:libvdpau(x86-64) >= 0.9
错误:软件包:cuda-samples-10-1-10.1.168-1.x86_64 (cuda-10-1-local-10.1.168-418.67)
需要:freeglut-devel
错误:软件包:3:nvidia-libXNVCtrl-devel-418.67-1.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
需要:libX11-devel
错误:软件包:3:nvidia-driver-cuda-418.67-4.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
需要:ocl-icd
错误:软件包:3:nvidia-driver-libs-418.67-4.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
需要:vulkan-filesystem
错误:软件包:cuda-samples-10-1-10.1.168-1.x86_64 (cuda-10-1-local-10.1.168-418.67)
需要:libXi-devel
您可以尝试添加 --skip-broken 选项来解决该问题
您可以尝试执行:rpm -Va --nofiles --nodigest
这里需要一个一个地安装库,我实在不会安装,就此打住。
命令附录:
1.查看 nvidia 显卡:
https://www.csdn.net/gather_26/MtjaQg4sNTk5Mi1ibG9n.html
Linux查看显卡信息:
[python] view plain copy
lspci | grep -i vga
使用nvidia GPU可以:
[python] view plain copy
lspci | grep -i nvidia
2.centos更换账户:
$ whoami --查看自己的身份
$ su roor --使用root权限
$ su 其它账户名
3.卸载CUDA
http://blog.sina.com.cn/s/blog_6d55a74b0102xdau.html
1). 卸载cuda-toolkit
# cd /usr/local/cuda-8.0/bin/
# ./uninstall_***
2). 卸载显卡驱动
假如安装的是NVIDIA-Linux-x86-340.96.run
则运行如下命令:sh NVIDIA-Linux-x86-270.41.19.run --uninstall
4.一个可以按照系统搜索rpm包的网站
其它参考网站:
一文贯通 CentOS 7 下安装tensorflow-gpu
https://blog.csdn.net/weixin_41294780/article/details/80482186
centos tensorflow GPU安装过程全记录
https://www.jianshu.com/p/ca0cb47ad9a8
CentOS 7 安装 NVIDIA 显卡驱动和 CUDA Toolkit
https://blog.csdn.net/xueshengke/article/details/78134991
自制centos7安装NVIDIA驱动及CUDA
https://blog.csdn.net/Fortuna_i/article/details/83141070
CUDA支持显卡版本
https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。