当前位置:   article > 正文

torchrun常见参数_torchrun --nproc_per_node

torchrun --nproc_per_node

示例

torchrun --nproc_per_node=4 --nnodes=3 --node_rank=0 --master_addr=192.168.0.101 --master_port=29500 test_mpi.py
  • 1

常见参数

1.指定每个节点(机器)上的进程数,这里是4个。意味着每个机器将启动4个进程来参与分布式训练。

--nproc_per_node=4
  • 1

2.指定总共的节点数,这里是3个。意味着总共有3个机器参与分布式训练。

--nnodes=3
  • 1

3.指定当前节点(机器)的排名,这里是0。排名从0开始,用于在分布式环境中区分不同的节点。

--node_rank=0 
  • 1

4.指定主节点的IP地址,这里是192.168.0.101(更根据实际修改)。主节点用于协调分布式训练过程。

--master_addr=192.168.0.101
  • 1

5.指定主节点的端口号,这里是29500。主节点使用指定的端口来与其他节点进行通信。

–master_port=29500
  • 1

6.单机运行

--standalone
  • 1
声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号