赞
踩
预训练包括以下两个任务:
对应的类:
BERT的优化器,出自论文《Fixing Weight Decay Regularization in Adam》,用于修复Adam的权重衰减错误。论文指出,L2正则化和权重衰减在大部分情况下并不等价,只在 SGD 优化的情况下是等价的;而大多数框架中对于 Adam+L2正则使用的是权重衰减的方式,两者不能混为一谈。
Warmup是指
在Huggingface的实现中,可以使用多种 warmup 策略:
TYPE_TO_SCHEDULER_FUNCTION = {
SchedulerType.LINEAR: get_linear_schedule_with_warmup,
SchedulerType.COSINE: get_cosine_schedule_with_warmup,
SchedulerType.COSINE_WITH_RESTARTS: get_cosine_with_hard_restarts_schedule_with_warmup,
SchedulerType.POLYNOMIAL: get_polynomial_decay_schedule_with_warmup,
SchedulerType.CONSTANT: get_constant_schedule,
SchedulerType.CONSTANT_WITH_WARMUP: get_constant_schedule_with_warmup,
}
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。