虽然使用Adam进行训练有助于快速收敛，但结果模型的泛化性能往往不如使用SGD进行动量训练时的泛化性能。另一个问题是，即使Adam有自适应学习率，当使用良好的学习率计划时，它的性能也会提高。特别是在训练的早期，使用低效的学习率来避免发散是有益的。这是因为在一开始，模型的权值是随机的，因此得到的梯度不是很可靠。如果学习率太大，可能会导致模型采取太大的步骤，而没有确定合适的权重。如果学习率太大，可能会导致模型采取太大的步骤（步长过大，容易跳过最优点），而没有确定合适的权重。

当模型克服了这些初始稳定性问题后，可以提高学习速度，加快收敛速度。这个过程被称为学习率热身。

10. AdamW和Adam有什么不同？

AdamW是Adam在权重上使用了L2正则化，这样小的权重泛化性能更好。

11. 在多任务学习中，软、硬参数共享的区别是什么？

在硬共享中，我们一次训练所有的任务，并根据所有的损失更新权重。在软共享中，我们一次只训练一个任务。

12. BatchNorm和LayerNorm的区别？

BatchNorm----为每一个batch计算每一层的均值和方差

LayerNorm----独立计算每一层每一个样本的均值和方差

13. 为什么transformer使用LayerNorm，而不是BatchNorm?

从LayerNorm的优点看，它对batch大小是健壮的，并且在样本级别而不是batch级别工作得更好。

14. 如果你知道你的训练数据有错误，你会对你的深度学习代码做什么改变？

我们可以做标签平滑，其中的平滑值是基于百分误差。如果任何特定的类有已知的误差，我们还可以使用类权值来修正损失。

15. 在transformer中使用最多的层是哪一层？

Dropout

16. 说一个不适用dropout的语言模型

ALBert v2：ALBert中参数共享的正则化效果非常强，不需要dropout(ALBert v1中有dropout)

17. GPT和BERT有什么不同？

GPT不是双向的，没有masking概念
Bert在训练中加入下一个句子预测任务，所以它有sengment嵌入

18. Bert和ALBert v2有什么不同？

ALBert中，嵌入矩阵分解（减少参数数量）
ALBert中没有dropout
ALBert中实现了参数共享（有助于减少参数数量并进行正则化）

19. 如何减少训练好的神经网络模型的推理时间？

在GPU/TPU/FPGA上进行服务
16位量化，部署在支持fp16的GPU上提供服务
剪枝以减少模型参数
知识蒸馏（用于较小的transformer模型或简单的神经网络）
采用分层softmax

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/笔触狂放9/article/detail/364157