赞
踩
服务器配置pytorch 镜像
服务器配置
硬件:Tesla V100s 32GB *4
OS: CentOS Linux release 7.9.2009 (Core)
内核:3.10.0-1127.el7.x86_64
#查看Linux发行版本
cat /etc/redhat-release CentOS Linux release 7.5.1804 (Core)
#查看内核版本
uname -r
建议先更换 yum
源,否则在安装的时候可能会导致docker-ce-selinux 和 container-selinux
版本不匹配的问题
更换 yum
源
#备份当前源
cd /etc/yum.repos.d/
cp /CentOS-Base.repo /CentOS-Base-repo.bak
#下载新源repo文件,此处以阿里源为例
wget http://mirrors.aliyun.com/repo/Centos-7.repo
#设置为默认源
mv Centos-7.repo CentOS-Base.repo
#生成阿里云yum源缓存并更新yum源
yum makecache
yum update
安装过程中若出现未满足依赖项的错误的话,可以到官方网址下载或清华镜像站下载,然后手动安装
安装完成之后对Docker镜像添加加速源
source:
科大镜像:https://docker.mirrors.ustc.edu.cn/
网易:https://hub-mirror.c.163.com/
阿里云:https://<你的ID>.mirror.aliyuncs.com
七牛云加速器:https://reg-mirror.qiniu.com
在 /etc/docker/daemon.json
中写入如下内容(如果文件不存在请新建该文件):
{"registry-mirrors":["https://hub-mirror.c.163.com/"]}
之后重新启动服务:
$ sudo systemctl daemon-reload
$ sudo systemctl restart docker
检查加速器是否生效
$ docker info
安装好Docker之后,为了能够在容器内调动Nvidia GPU 则需要安装 Nvidia-Docker
docker进程使用Unix Socket而不是TCP端口。而默认情况下,Unix socket属于root用户,需要root权限才能访问。
解决 unix socket 需要root 权限问题
docker守护进程启动的时候,会默认赋予名字为docker的用户组读写Unix socket的权限,因此只要创建docker用户组,并将当前用户加入到docker用户组中,那么当前用户就有权限访问Unix socket了,进而也就可以执行docker相关命令
sudo groupadd docker #添加docker用户组
sudo gpasswd -a $USER docker #将登陆用户加入到docker用户组中
newgrp docker #更新用户组
docker ps #测试docker命令是否可以不使用sudo正常使用
都安装完成之后则进入,建立容器环节
这里我们选择第一种方式,节约时间。
首先,到 Docker-hub 上搜索你需要的环境的公共镜像,可直接在命令行输入
docker search pytorch #此处以安装 pytorch环境为例
可以直接搜索到hub上的公共镜像,如果需要特定版本的,可以到官方地址搜索查看详情。
可以看到有各种版本的,选择自己想要的版本 pull
到本地,
docker pull pytorch/pytorch:想要的版本TAG
笔者没有输入tag
则直接默认为 :latest
,安装了最新版
把镜像pull
到本地之后可以通过 docker images
来查看本地镜像
可以看到本地镜像的名字,ID,创建日期,版本,大小等信息
然后就可以利用本地镜像来建立容器了
sudo docker run -it(交互式,终端模式) --runtime=nvidia(运行在nvidia GPU上) -P(随机映射)/-p(8888:8888)(内部端口:主机端口) --name 容器名 -v 主机路径:容器路径 镜像名 /bin/bash (交互方式)
#例如
sudo docker run -it --runtime=nvidia -p 8888:8888 --name pytorch1.7 -v /tmp:/tmp pytorch/pytorch /bin/bash
用以上建立好容器之后会直接进入容器,然后便可将代码和数据通过上面挂载的共享文件夹来进行传输,在容器内安装好未满足的依赖项之后,启动代码,即可开始训练。
一些其他 Docker 指令
docker ps #显示正在运行的容器
docker attach 容器名/ID #进入容器
docker exec -it 容器名/ID #进入容器 且使用 exit 退出时不会关闭容器
docker rm 容器名/ID #删除容器
docker rmi 镜像名/ID #删除镜像
CTRL + P + Q 退出容器
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。