赞
踩
基于Megatron-LM从0到1完成GPT2模型预训练、模型评估及推理 - 知乎 (zhihu.com)
先讲结论,踩坑太漫长了:
GPU:tesla P100
cuda11.8(可换其他,低点好)
pytorch2.1.0(可换其他2.1还是有点小坑)
Megatron-LM(tag2.5),最新的transformer_engine用不了,对GPU框架有要求
pytorch镜像选好版本(别用太高,gpu不行,多踩了很多坑),有apex的就行
首先进入到Megatron-LM
目录,安装一下依赖,pip install -r requirements.txt
不需要tensorflow
pytorch和cuda要匹配
原来时cuda11.4,torch版本1.12+cu113(torch没有114就离谱)
修改setup.py文件,删除验证匹配的地方即可
或者重下cuda和torch
我都做了但我卡住的地方不是这
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。