赞
踩
主要是在实现Yuan1.0大规模模型时,他们引用了Nvidia开发的megatron这个框架,因为这个框架就是为了分布式多卡环境而设计的,而要上大参数量的模型时要获得比较可观的速度就避免不了要上这个框架。此处github上的megatron官方介绍。
要注意的是这个框架应用了Nvidia自己开发的Apex工具,于是要求你的其他工具都得给它配上套。比如这个apex又用到了cuda toolkit,意味着需要在本地配置cuda,这个cuda的版本要求跟你所配置的Pytorch中含有的cuda的版本一致,而非向下或向上兼容的关系
多次尝试,走了弯路,最后运行的环境
Pytorch: torch==1.10.2 + cu113 torchvision==0.11.3 + cu113 torchaudio==0.10.2+cu113
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。