当前位置:   article > 正文

[论文笔记] pai-megatron-patch Qwen2-72B-CT 后预训练 踩坑记录_qwen2 训练不收敛

qwen2 训练不收敛

经过以下修改,Qwen2-72B-CT可以正常训练,并且benchmark指标和loss正常。

Qwen2-72B-CT开长文本,256卡,16K会OOM,目前能开11K(11008)。

开context parallel需要后续测试。

[论文笔记] Pai-megatron Qwen1.5-14B-CT 后预训练 踩坑记录_pai-megatron-patch 多机-CSDN博客

[论文笔记] pai-megatron-patch Qwen2 tokenize代码踩坑-CSDN博客

一、改动

1、模型加载:strict=False

vim ./PAI-Megatron-Patch/Megatron-LM-240405/megatron/training/checkpointing.py

在716行,改掉strict = False。

2、Tokenize支持多级目录

vim megatron_patch/tokenizer/__init__.py

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/796754
推荐阅读
相关标签
  

闽ICP备14008679号