赞
踩
神经网络与深度学习——学习笔记(一)
概述
1.定义
人工智能(Artificial Intelligence): 是用机器去实现所有目前必须借助人类智慧才能实现的任务。其具体研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统。
2.人工神经网络概念
是从微观结构与功能上模拟人脑神经系统而建立的一类模型,是模拟人的智能的一条途径。
线性回归
定义
利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
要素
训练集、输出数据、模型。
学习过程
实现过程
线性二分类问题
定义
线性分类器则透过特征的线性组合来做出分类决定,以达到此种目的。简言之,样本通过直线(或超平面)可分。
输入:特征向量
输出:二分类下,可以是0、1分类代号;或者是某类的概率。
线性分类与线性回归的差别
I.输出意义不同:属于某类的概率——回归具体值
Ii.最佳分类直线——最佳拟合直线
Iii.维数不同
构造“分界直线”
借助Sigmoid函数将值转换为0~1之间的概率
梯度下降法
由于非线性无法求解,这里构造序列,最简单的方法如下:
对数回归和多分类回归
指数回归
二分类问题可以使用条件概率描述:
假设各样本相互独立,服从Bernoulli分布。合理估计值应当是让所有样本时间产生的几率最大,即应当是极大似然的,取似然函数为:
多分类回归
代价函数
对应梯度
这种方式又称为Softmax。
神经元模型
分类
生物神经元:Spiking模型、Integrate-and-fire模型;
人工神经元模型:M-P模型;
单神经元模型
作用函数
非对称型Sigmoid函数
对称型Sigmoid函数
对称型阶跃函数
Hebb规则
连接权值的调整量与输入和输出的积成正比:
感知机模型
感知机原理与模型
感知机从输入到输出的模型如下:
对样本进行分类:
损失函数如下:
超平面参数,满足:
输入:训练数据集
输出:超平面参数
BP神经网络
多层感知机
XOR问题
线性不可分问题:无法进行线性分类。
多层感知机
解决方法:使用多层感知机
在输入和输出层间加一或多层隐单元,构成多层感知器(多层前馈神经网络)。
加一层隐节点(单元)为三层网络,可解决异或(XOR)问题。
可以得到
三层感知机可识别任一凸多边形或无界的凸区域。
更多层感知器网络,可识别更为复杂的图形。
多层前馈网络及BP算法概述
多层前馈网络
多层前馈网络的反向传播(BP)学习算法,简称BP算法,它是梯度下降法在多层前馈网中的应用。
网络结构如下图所示。
BP算法简述
已知网络的输入/输出样本,即导师信号。
BP学习算法由正向传播和反向传播组成:
i.正向传播是输入信号从输入层经隐层,传向输出层,若输出层得到了期望的输出,则学习算法结束;否则,转至反向传播。
ii.反向传播是将误差(样本输出与网络输出之差)按原联接通路反向计算,由梯度下降法调整各层节点的权值和阈值,使误差减小。
BP算法详解
BP算法基本思想
算法的输入输出样本(导师信号),即共N个样本。
网络训练的目的,是使对每一个输入样本,调整网络参数,使输出均方误差最小化。这是一个最优问题。
BP算法推导
前向传播
考虑三层神经网络,对于当前样本,隐含层输出:
假设仅有一层隐层,则输出:
误差反传——输出层
误差反传——隐含层
误差反传——总结
如果当前是输出层:
隐含层:
然后更新:
算法扩展
神经网络分类
输出层为线性节点(单输出):
二分类问题
加入正则项
性能优化
动量法
如果把原始的SGD 想象成一个纸团在重力作用向下滚动,由 于质量小受到山壁弹力的干扰大,导致来回震荡;或者在鞍点处因为质量小速度很快减为 0,导致无法离开这块平地。
动量方法相当于把纸团换成了铁球;不容易受到外力的干扰,轨迹更加稳定;同时因为在鞍点处因为惯性的作用,更有可能离开平地。
动量法更新公式:
自适应梯度算法
Adaptive Gradient
RMSProp算法
Adam算法
性能优化问题描述
待解决问题
权值取何值,指标函数最小?
基本思想
二阶算法
牛顿法
其他算法
高斯——牛顿法
Levenberg-Marquardt算法
常用技巧
i.训练数据与测试数据:折交叉验证
原始训练数据被分成K 个不重叠的子集。然后执行 K 次模型训练和验证,每次在K−1 个子集上进行训练,并在剩余的一个子集(在该轮中没有用于训练的子集)上进行验证。最后,通过对K 次实验的结果取平均来估计训练和验证误差。
欠拟合与过拟合
权重衰减
暂退
模型初始化
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。