赞
踩
目录
W:权重参数,类别个数(决定性参数)
b:偏置,微调参数(非决定性参数)
x:像素点个数。
3072:3072:32*32*3 = 3072(3072个像素点)
10:10个类别
每个类别都有其各自的权重。(如w1类别可以是猫,w2类别可以是狗)
值越大:该像素点越重要。
0:该像素点不太重要。
正值:促进。
负值:抑制。
但是该图却把猫错误判断成了狗,问题在哪里呢?
首先不会是数据的问题,因为数据是一个不变的量。需要改变的是W(权重),需要选择一个合适的权重,所以需要改变这个W权重。
损失函数:判断得到的得分是否准确。
sj:当前图像得分
syi:正确图像得分
取0和(sj - syi + 1)的最大值:如果sj接近或者大于syi,则会产生损失,损失函数就不为0。
第一张图识别错误,做的很糟糕,产生一定的损失:
第二张图识别的效果很好,得分比其他类别都高1,没有损失:
第三张图居然得到的正确图像是一个负分,效果相当差,损失很大:
数据损失:
正则化惩罚项:降低无关变量权重。
正则化:保留所有的特征变量,但是会减小特征变量的数量级(越无关的变量,减小越多),可以有效地防止过拟合的情况。
正则化惩罚项和数据关系不大,只考虑权重参数。(正则化惩罚项可以只用平方项来做)
(w1^2+W2^2 + ... + wn^2)。
值越大:代表不希望过拟合,把正则化乘法放大。
我们希望模型不要太复杂,过拟合的模型是没用的。
神经网络由于过于强大,我们在研究神经网络的过程中,不会单纯的希望神经网络太强,这样泛化能力较差,我们希望神经网络能再弱一点,这样会有比较强的泛化能力。
梯度下降实质就是降低损失的过程,是目前最流行的优化方法。
学习率不可以过高,学习率过高可能会跳过最佳的情况。 所以通常需要学习率低一点(0.001~0.0001即可)。
如上图:梯度 = 学习率 * 更新梯度。
1、先得到得分
2、把得分的差异放大(e^x)
3、归一化,得到概率
4、计算损失值
回归:由得分计算损失
分类:由概率计算损失
Softmax( ):归一化的分类概率。
(它的取值范围在0~1,相当于概率值)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。