当前位置:   article > 正文

分布式并行训练基础样例(CPU)_在cpu上分布式训练

在cpu上分布式训练

 

 

目录

1.  环境准备

2.  分布式并行训练样例代码准备

3.  数据集准备

4.  训练

5. 运行结果


1.  环境准备

分布式并行训练基础样例(CPU)示例运行, 我用的是x86机器,python:3.7.5,CPU机器, 安装的版本是mindspore版本是2.0.0-alpha

环境准备这一方面根据官网的操作步骤即可

MindSpore官网

机器准备

x86

python3.7.5

安装mindspore 2.0.0-alpha版本

2.  分布式并行训练样例代码准备

先下载完整的样例代码,链接在教程里面有

分布式并行训练基础样例(CPU) — MindSpore master documentation

 本次体验下载的跟mindspore版本配套的r2.0.0-alpha

git clone https://gitee.com/mindspore/docs.git -b r2.0.0-alpha

查看示例代码distributed_training_cpu结构

3.  数据集准备

下载数据集并解压到cifar-10-batches-bin,数据集链接在教程里面

 

4.  训练

配置分布式环境

这部分配置本次体验不做修改,直接按照示例代码来,配置的是单机8节点,所以MS_WORKER_NUM也是设置的8

此次体验运行的图模式,数据并行

ms.set_context(mode=“”)mindspore是通过这个接口来控制静态图还是动态图的

至于数据并行 自动并行混合并行控制是通过ms.set_auto_parallel_context(parallel_mode=“”)

控制的

 train_resnet50_with_cifar10()是创建数据集和训练

 训练

通过shell脚本启动训练,指令是bash run.sh /home/murongmeng/cifar-10-batches-bin

查看worker和schedule进程

5. 运行结果

查看worker_0日志

本次体验结束~~~

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/357322?site
推荐阅读
相关标签
  

闽ICP备14008679号