当前位置:   article > 正文

模型参数小结_大模型预训练 steps参数

大模型预训练 steps参数

1.batch_size:

喂给模型的小批次数据。

2.num_train_steps:

训练数据所需的总步数。

3.epoch:

使用训练集中的全部样本训练的总次数。

4.iteration:

iteration等于使用batch_size个样本全部跑完一次训练样本数据的次数。

5.num_warmup_steps:

学习率预热的步数。(先用最初的小学习率训练,然后每训练一步,学习率递增,直到最初设置的比较大的lr;之后学习率继续衰减。)

预热学习率的方式,即先用最初的小学习率训练,然后每个step增大一点点,直到达到最初设置的比较大的学习率时(注:此时预热学习率完成);采用最初设置的学习率进行训练(注:预热学习率完成后的训练过程,学习率是衰减的),有助于使模型收敛速度变快,效果更佳。

sin decay and exp decay

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/正经夜光杯/article/detail/872488
推荐阅读
相关标签
  

闽ICP备14008679号