赞
踩
batchsize算法:4*1*8卡 loss:收敛越来越小 精度如何看 没有精度值,看loss值,越来越小,收敛到一定规模(pretrain 0.00x,finetune收敛到1.7~1.8 pretrain和finetune的区别 参数规模:pretrain全参数量一起训练、lora是使用一部分参数来训练