当前位置:   article > 正文

ValueError: Error initializing torch.distributed using tcp:// rendezvous: port number missing

valueerror: error initializing torch.distributed using tcp:// rendezvous: ra

pytorch 训练 ABCNet 网络 【GitHub】,

OMP_NUM_THREADS=1 
python tools/train_net.py \
--config-file configs/BAText/$confpath/attn_R_50.yaml \
--num-gpus 4 \
MODEL.WEIGHTS text_pretraining/attn_R_50/pretrain_attn_R_50.pth
  • 1
  • 2
  • 3
  • 4
  • 5

报错

ValueError: Error initializing torch.distributed using tcp:// rendezvous: port number missing

原因:缺失端口
需要指定端口号或者 TCP 的 URL

当前系统有哪些端口可用呢?对于Linux 上 tcp 类型的端口,使用下面语句查看 【参考

netstat -ntpl
  • 1

训练时指定 TCP URL 即可

OMP_NUM_THREADS=1 
python tools/train_net.py \
--config-file configs/BAText/$confpath/attn_R_50.yaml \
--num-gpus 4 \
--dist-url tcp://127.0.0.11:3806 \
MODEL.WEIGHTS text_pretraining/attn_R_50/pretrain_attn_R_50.pth
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

如果地址已被占用,就换个端口号,多试几个
RuntimeError: Address already in use

具体到其他训练语句,需要添加相应的命令行参数。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/394352
推荐阅读
相关标签
  

闽ICP备14008679号