赞
踩
先上B站链接:MIT《深度学习导论(6.S191)》课程(2021)。
手工进行特征工程耗时耗力,实践中难以大规模应用。
使用深度学习,可以直接从数据中获取其潜在特征。
例如:人脸识别中,底层特征(点、线)→中层特征(眼、鼻)→高层特征(人脸)
即神经元
非线性激活函数使得神经网络可以拟合非线性问题:
多个神经元组成单层神经网络
损失函数衡量理论输出与实际输出的差距:
经验损失函数:
训练的目的是找到使损失函数达到最小的参数,注意数据集确定后,loss成为参数的函数。
mini-batch有两大优点
随机使用部分神经元,保证神经网络不依赖某些神经元,理想情况下,任意神经元被废除时,神经网络也能预测正确的结果。
使用Dropout还能加快训练速度,因为训练时的计算量更小了。
很好理解
为了预测顺序序列而提出的网络结构。
现实中存在大量顺序序列,如股票价格,心电图,句子,音频,视频等
全连接神经网络是 1-1结构;
循环神经网络可以是 n-1,1-n,n-n结构。
注意递推公式:
在输入序列上的展开:(注意使用的是同一组参数,这样参数量就不会受序列长度影响了)
RNN满足处理序列的设计准则:
处理变长度序列
跟踪长期的依赖关系(如Xn对X1的依赖关系)
捕捉顺序信息
序列中共享参数
如果计算在[1, ∞]上进行,梯度累计会发生梯度爆炸;
如果计算在[0, 1]上进行,计算累乘会发生梯度消失。
为了缓解这一现象,解决方法有:
LSTM在大规模序列数据上的局限性:
解决方法:注意力机制
创造音乐
判断文字情绪
机器翻译
自动驾驶汽车的轨迹预测
环境建模与气候分析
网络不是用于学习数据模式,而是用于生成数据本身:
(All fake, generated)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。