赞
踩
L1是模型各个参数的绝对值之和∣w⃗∣0,那么对目标函数经过优化后,一部分参数会变为0,另一部分参数为非零实值。这样就起到了筛选特征的作用。
过拟合是由于特征过多,L1可以筛选特征,所以能够缓解过拟合
网络完成训练后,在inference阶段,为了加速运算,通常将卷积层和BN层进行融合
• 全0初始化,
就是将所有权重置0。当然是不能这样的,神经网络通过梯度更新参数,参数都是0,梯度也就是0,神经网络就停止学习了。
• 随机初始化
将参数随机化,不过随机参数服从高斯分布或均匀分布。高斯分布均值为0,方差为1。0.001为控制因子,这样使得参数期望尽量接近0
Xavier初始化
随机初始化没有控制方差,所以对于深层网络而言,随机初始化方法依然可能失效。理想的参数初始化还得控制方差,对w进行一个规范化。“Xavier初始化”维持了输入输出数据分布方差一致性。
He初始化
对于非线性激活函数ReLU,“Xavier初始化”方法失效。因此He初始化,在Xavier的基础上,假设每层网络有一半的神经元被关闭,于是其分布的方差也会变小。经过验证发现当对初始化值缩小一半时效果最好,故He初始化可以认为是Xavier初始 / 2的结果。
神经网络在训练时,前向传播和反向传播都涉及到每个神经元的权重更新wi,也就是我们说的网络参数了,当然这些参数需要一个初始值。方法有很多,全0初始、随机初始等等,每个方法都有优缺点。
理想的网络参数初始化使得模型训练事半功倍,相反,糟糕的初始化可能导致网络梯度消失和梯度爆炸。ReLU,如果初始化不合理,前向运算的结果可能全部为负,发生“死区”现象。
再简单说,就是参数又不能过大,又不能过小。比如在前向传播过程中输出为h(wx+b),因为w很小,所以输出很小,同时反向传播过程中梯度的变化也很小,那么参数的改变也很小,在不断的正向传播乘很小的数,反向传播又几乎不变的情况下,最后w会越来越小,趋近于0,出现梯度消失。反之同理。
最理想化的参数初始化
经过多层网络后,信号不被过分放大或过分减弱。使每层网络的输入和输出的方差一致。然后我们还要尽量保证每层网络参数分布均值为0,加快训练;计算方便。
将所有权重置0。当然是不能这样的,神经网络通过梯度更新参数,参数都是0,梯度也就是0,神经网络就停止学习了。
随机初始化没有控制方差,所以对于深层网络而言,随机初始化方法依然可能失效。理想的参数初始化还得控制方差,对w进行一个规范化
我们神经网络中的初始权值也一般是小于 1 的数,所以相当于公式中是多个小于 1 的数在不断的相乘,导致乘积和还很小。如果层数不断增多,乘积和会越来越趋近于 0,以至于当层数过多的时候,最底层的梯度会趋近于 0,无法进行更新,并且 Sigmoid 函数也会因为初始权值过小而趋近于 0,导致斜率趋近于 0,也导致了无法更新。
更正:标准差不是方差
1)归一化后加快了梯度下降求最优解的速度
2)归一化有可能提高精度
机器学习中的评价指标
TP、FP、FN、TN分别为真阳性、假阳性和假阴性、真阴性
地震的预测 对于地震的预测,我们希望的是Recall非常高,
嫌疑人定罪基于不错怪一个好人的原则我们希望的是precision非常高,
有的场景我们希望Precision和Recall都最大。所以我们需要一个综合评价两者的指标:F1-score
有几个指标:
1. 分类指标
有几个指标:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。