torch.distributed.elastic.multiprocessing.errors.ChildFailedError:

avatar
作者
猴君
阅读量:2

torch.distributed.elastic.multiprocessing.errors.ChildFailedError:

原因:torch的cu版本与使用的CUDA版本不一致。

解决方案:因为我的CUDA是11.6,所以运行下方(需注意cu版本要低于nvidia-smi里的CUDA版本):

pip install torch==1.12.1+cu116 torchvision==0.13.1+cu116 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu116

查了一下cuda 11.8

另一种方法:

torch.distributed.elastic.multiprocessing.errors.ChildFailedError-CSDN博客

修改finetune_qlora_ds.sh,设置GPUS_PER_NODE与可使用GPU数相同

GPUS_PER_NODE=2

torch.distributedtorch.distributed…DistBackendErrorDistBackendError: : NCCL error in: …/torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:1275, internal error, NCCL version 2.14.3

这个不知道什么原因,然后解决方法是
增加环境变量NCCL_SOCKET_IFNAME=eth2

广告一刻

为您即时展示最新活动产品广告消息,让您随时掌握产品活动新动态!