赞
踩
模型在验证集合上和训练集合上表现都很好,而在测试集合上变现很差。过拟合即在训练误差很小,而泛化误差很大,因为模型可能过于的复杂,
另一种非常流行的神经网络正则化方法是dropout。这个想法实际上非常简单——神经网络的每个单元(属于输出层的那些单元)都被赋予在计算中被暂时忽略的概率p。超参数p称为丢失率,通常将其默认值设置为0.5。然后,在每次迭代中,根据指定的概率随机选择丢弃的神经元。因此,每次训练会使用较小的神经网络。下图显示了使用dropout操作的神经网络的示例。从图中可以看到,在每次迭代过程中是随机停用来自第二和第四层神经元。
当需要减少过拟合时,应该尝试的第一种方法是正则化。这种方法涉及到在损失函数中添加一个额外的式子,这会使得模型过于复杂。简单来说,就是在权重矩阵中使用过高的值,这样就会尝试限制其灵活性,同时也鼓励它根据多种特征构建解决方案。这种方法的两个流行版本是L1-最小绝对偏差(LAD)和L2-最小二乘误差(LS),相应的公式如下。在大多数情况下,L2正则化是首选,因为它将不太重要的特征的权重值减小到零。但是在处理具有大量异常值的数据集时不是首选。
现在看一下在偏差和方差的例子中使用的两个神经网络。正如之前提到的,使用正则化来消除过拟合。在三维空间中可视化权重矩阵并比较在有正则化和没有正则化的模型之间获得的结果如下图所示。此外,还使用正则化对许多模型进行了模拟,改变λ值以验证其对权重矩阵中包含的值的影响。矩阵行和列索引对应于水平轴值,权重为垂直坐标值。
如下图所示(图片来源deep learning),当随着模型的能力提升,训练集的误差会先减小再增大,这样可以提前终止算法减缓过拟合现象.关于算法的具体流程参考deep learning.
提前终止是一种很常用的缓解过拟合的方法,如在决策树的先剪枝的算法,提前终止算法,使得树的深度降低,防止其过拟合.
在对模型进行训练时,我们可以将我们的数据集分为三个部分,训练集、验证集、测试集。我们在训练的过程中,可以每隔一定量的step,使用验证集对训练的模型进行预测,一般来说,模型在训练集和验证集的损失变化如下图所示:
可以看出,模型在验证集上的误差在一开始是随着训练集的误差的下降而下降的。当超过一定训练步数后,模型在训练集上的误差虽然还在下降,但是在验证集上的误差却不在下降了。此时我们的模型就过拟合了。因此我们可以观察我们训练模型在验证集上的误差,一旦当验证集的误差不再下降时,我们就可以提前终止我们训练的模型。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。