赞
踩
经过以下修改,Qwen2-72B-CT可以正常训练,并且benchmark指标和loss正常。
Qwen2-72B-CT开长文本,256卡,16K会OOM,目前能开11K(11008)。
开context parallel需要后续测试。
[论文笔记] Pai-megatron Qwen1.5-14B-CT 后预训练 踩坑记录_pai-megatron-patch 多机-CSDN博客
[论文笔记] pai-megatron-patch Qwen2 tokenize代码踩坑-CSDN博客
vim ./PAI-Megatron-Patch/Megatron-LM-240405/megatron/training/checkpointing.py
在716行,改掉strict = False。
vim megatron_patch/tokenizer/__init__.py
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。