赞
踩
torchrun --nproc_per_node=4 --nnodes=3 --node_rank=0 --master_addr=192.168.0.101 --master_port=29500 test_mpi.py
1.指定每个节点(机器)上的进程数,这里是4个。意味着每个机器将启动4个进程来参与分布式训练。
--nproc_per_node=4
2.指定总共的节点数,这里是3个。意味着总共有3个机器参与分布式训练。
--nnodes=3
3.指定当前节点(机器)的排名,这里是0。排名从0开始,用于在分布式环境中区分不同的节点。
--node_rank=0
4.指定主节点的IP地址,这里是192.168.0.101(更根据实际修改)。主节点用于协调分布式训练过程。
--master_addr=192.168.0.101
5.指定主节点的端口号,这里是29500。主节点使用指定的端口来与其他节点进行通信。
–master_port=29500
6.单机运行
--standalone
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。