[论文笔记] pai-megatron-patch Qwen2-72B-CT 后预训练踩坑记录_qwen2 训练不收敛

作者：盐析白兔 | 2024-07-07 20:48:47

踩

qwen2 训练不收敛

经过以下修改，Qwen2-72B-CT可以正常训练，并且benchmark指标和loss正常。

Qwen2-72B-CT开长文本，256卡，16K会OOM，目前能开11K(11008)。

开context parallel需要后续测试。

一、改动

vim ./PAI-Megatron-Patch/Megatron-LM-240405/megatron/training/checkpointing.py

在716行，改掉strict = False。

vim megatron_patch/tokenizer/__init__.py

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/盐析白兔/article/detail/796754