赞
踩
最早的一个人工智能算法(简单二分类)
训练感知机时相当于做异或判断,如果yi真实值与利用wi和bi计算值异号,则不断更新w和b。
相当于一个批量大小为1的梯度下降,其中的loss函数计算方式可以理解为,当分类正确时y<w,x>是正值,则loss为0了,否则分类不正确loss不为0。
总结:
神经网络中为什么需要使用激活函数?
如果不用激活函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,输出都是输入的线性组合,这种情况就是最原始的感知机(Perceptron)。如果使用的话,激活函数给神经元引入了非线性因素,使得神经网络可以任意逼近任何非线性函数,这样神经网络就可以应用到众多的非线性模型中。**如果不使用激活函数的话,虽然我们使用了隐藏层,但是实际还是一个单元神经,所以我们需要使用激活函数。**层中每少一个激活就相当于少一层。
具体详细内容可见如下博客:
https://blog.csdn.net/Fhujinwu/article/details/108665953
一般来说对于隐藏层中每层的个数应该是先大后小的,不能让隐藏层先经过少的隐藏层再进入多数量的隐藏层,因为如果先把把个数缩小的话会损失很多信息。
多层感知机总结:
即李沐使用的nn.Sequential和小土堆使用的nn.Module的区别如下:
https://blog.csdn.net/ftimes/article/details/105100522
**训练误差:**模型在训练数据上的误差
**泛化误差:**模型在新数据上的误差
**验证数据集:**用来评估模型好坏的数据集
**测试数据集:**只用一次的数据集,即最后打分的数据集
非大数据集上通常使用K-折交叉验证
模型容量
拟合各种函数的能力
低容量的模型难以拟合训练数据
高通量的模型可以记住所有的训练数据
估计同类算法模型的容量的两个因素
参数的个数
参数的选择范围
数据复杂度的多个因素:
样本个数
每个样本的元素个数
时间、空间结构
多样性
…
控制模型的容量:使用均方范数作为硬性限制
通过限制参数值的选择范围来控制模型容量
总结:
1.权重衰退通过L2正则项使得模型参数不会过大,从而控制模型复杂度
2.正则项权重lamda是控制模型复杂度的超参数
动机:
一个好的模型需要对输入数据的扰动鲁棒
dropout需要在层中间加入噪音,这个噪音是随机的。
但是需要无偏差的加入噪音,保证原来数据的期望不变
可以得到以下Xi公式:
丢弃法(dropout)使用方法:
通常将丢弃法作用在隐藏全连接的输出上
训练步骤:
1.首先获得第一层的数据h
2.使用dropout获得h’
3.下一层的输如则为h’
(如图所示,左边为正常结构,右边是使用了dropout方法,少了两个神经元,是由于dropout的作用丢弃了)
总结:
1.丢弃法将一些输出项随机置0来控制模型复杂度
2.常作用在多层感知机的隐藏层输出上
3.丢弃概率是控制模型复杂度的超参数
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。