凡人多烦事01

这个屌丝很懒，什么也没留下！

热门标签

深度学习（一）_第一个深度学习网络

作者：凡人多烦事01 | 2024-03-15 01:58:44

踩

第一个深度学习网络

1.深度学习概述

深度学习发展分为三个阶段：

阶段一：第一代神经网络（1958-1969）

起源于1943年的MCP人工神经元模型：输入信号加权、求和、非线性激活（阈值法）。

阶段二：第二代神经网络（1986-1998）

Hinton于1986年提出多层感知器（MLP）的BP算法，采用Sigmoid进行非线性映射，解决了非线性分类；

1986年，决策树方法；

1989年，LeCun法命卷积神经网络LeNet；

1995年，SVM;

1997年，LSTM模型；

2000年，Kernal SVM；

2001年，随机森林；图模型；

阶段三：（2006~至今）

2006年深度学习元年；2011年，Relu；2012年，AlexNet;

深度学习结构：DNN, CNN, RNN, GAN.

2.多层全连接神经网络

优化函数：

一阶优化算法：通过梯度值更新参数，梯度下降。梯度即导数；

二阶优化算法：基于牛顿法，二阶导数计算成本高；

基于均方误差最小化来进行模型求解的方法：最小二乘。求解方法：偏导为0.

分类问题：监督学习主要分为回归问题和分类问题

逻辑分布（Logistic）：连续随机变量X满足如下积累分布函数和密度分布函数

二分类逻辑回归：通过找到分类概率于输入变量x关系，通过比较概率值来判断类别

事件发生的机率：发生概率与不发生的比值p/(1-p)：（Y=1的对数几率是输入x的线性函数）

思考：线性回归和逻辑回归之间的联系和区别？逻辑回归为什么使用Sigmod函数？

逻辑回归本质还是线性回归，逻辑回归在线性回归基础上，在特征到结果的映射中加入了一层sigmoid函数（非线性）映射，即先把特征线性求和，然后使用sigmoid函数来预测。

二元分类：sigmoid；

多元分类：softmax;

经典的线性模型的优化目标函数是：最小二乘，而逻辑回归则是似然函数；

线性回归在整个实数域范围内进行预测，敏感度一致；

逻辑回归减小预测范围，将预测值限定为[0,1]间的一种回归模型，逻辑回归的鲁棒性比线性回归好；逻辑回归都是以线性回归为理论支持的。但线性回归模型无法做到sigmoid的非线性形式，sigmoid可以轻松处理0/1分类问题。

Sigmoid激活函数：

缺点：梯度消失；初始权重要求谨慎；输出均值不为0；

变体：Tanh激活函数（2σ（2x）- 1）

Relu激活函数：

优点：加速收敛速度，线性，不会梯度消失；计算简单；

缺点：较脆弱（小于0的部分直接置零）,解决方法是设置较小的学习率。

神经网络：N层神经网络一般不包含输入层；输出层一般没有激活函数；

优化算法：

（1）梯度下降法：（推导用到泰勒级数）

（2）随机梯度下降：SGD, 即每次使用一个Batch的数据进行计算，而非全部数据；

（3）Momentum: 增加动量（更新不仅依赖当前梯度，也依赖之前的梯度）；

（4）Adagrad:

(5) RMSrop：

(6) Adam ：（3 ） + （5）

数据预处理：中心化，即所有数据减去均值。

标准化：即除以标准差，或每个特征维度的最大值和最小值。

权重初始化：全0初始化（不推荐）；随机初始化；稀疏初始化（先全部初始化为0，之后随机挑选随机赋值）；

防止过拟合：

L2正则化：对于权重过大的部分进行惩罚，可以让参数更新之后靠近0；

L1正则化：在损失函数中增加权重的1范数；

L1正则化可以是权重变得更加稀疏；L2正则化会比L1更加发散，权重被限制的更小；

Dropout：

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/凡人多烦事01/article/detail/238388