赞
踩
关键问题:提前准备好
注意:要突出重点,针对你面试的岗位来说你的项目经历,引导面试官往你的重点走。
LSTM是什么,结构是这样的:
从上图中可以看出,在每个序列索引位置t时刻向前传播的除了和RNN一样的隐藏状态h(t)h(t),还多了另一个隐藏状态,如图中上面的长横线。这个隐藏状态我们一般称为细胞状态(Cell State),记为C(t)C(t)。 重点是由这个细胞状态
激活函数是sigmoid+tanh
原理:RNN是用来解决序列数据的,不像卷积神经网络和全连接网络那样从输入层到隐藏层再到输出层,层与层之间是全连接或部分连接,但是每层之间的结点没有连接,即没有用上一个输出的信息。
特点:循环神经网络的隐藏层之间的结点是有连接的,隐藏层的输入不仅包括输入层的输出,还包括上一时刻隐藏层的输出。
激活函数只用的tanh
逻辑回归是用来解决分类问题的,逻辑回归是一个非线性分类器。逻辑回归可以将连续值映射到0和1上,对数回归用来分类0/1问题
则逻辑回归输出的预测函数数学表达式为 :
对于输入x分类结果为类别1和类别0的概率分别为:
P
(
y
=
1
∣
x
;
θ
)
=
h
θ
(
x
)
P
(
y
=
0
∣
x
;
θ
)
=
1
−
h
θ
(
x
)
除了梯度下降法,还有其他的一些用来求代价函数最小时参数θ的方法,如牛顿法、共轭梯度法(Conjugate Gradietn)、局部优化法(BFGS)和有限内存局部优化法(LBFGS)
5.PReLU函数
dropout动机:
在自然界中,在中大型动物中,一般是有性繁殖,有性繁殖是指后代的基因从父母两方各继承一半。但是从直观上看,似乎无性繁殖更加合理,因为无性繁殖可以保留大段大段的优秀基因。而有性繁殖则将基因随机拆了又拆,破坏了大段基因的联合适应性。
但是自然选择中毕竟没有选择无性繁殖,而选择了有性繁殖,须知物竞天择,适者生存。我们先做一个假设,那就是基因的力量在于混合的能力而非单个基因的能力。不管是有性繁殖还是无性繁殖都得遵循这个假设。为了证明有性繁殖的强大,我们先看一个概率学小知识。
比如要搞一次恐怖袭击,两种方式:
哪一个成功的概率比较大? 显然是后者。因为将一个大团队作战变成了游击战。
那么,类比过来,有性繁殖的方式不仅仅可以将优秀的基因传下来,还可以降低基因之间的联合适应性,使得复杂的大段大段基因联合适应性变成比较小的一个一个小段基因的联合适应性。
dropout也能达到同样的效果,它强迫一个神经单元,和随机挑选出来的其他神经单元共同工作,达到好的效果。消除减弱了神经元节点间的联合适应性,增强了泛化能力。(https://blog.csdn.net/stdcoutzyx/article/details/49022443))
Dense就是指的全连接层,Dropout说的简单一点就是:我们在前向传播的时候,让某个神经元的激活值以一定的概率p停止工作,这样可以使模型泛化性更强,因为它不会太依赖某些局部的特征。dropout表达式
上面公式中Bernoulli函数是为了生成概率r向量,也就是随机生成一个0、1的向量。
思考:上面我们介绍了两种方法进行Dropout的缩放,那么Dropout为什么需要进行缩放呢?
因为我们训练的时候会随机的丢弃一些神经元,但是预测的时候就没办法随机丢弃了。如果丢弃一下神经元,这会带来结果不稳定的问题,也就是给定一个测试数据,有时候输出a有时候输出b,结果不稳定,这是实际系统不能接受的,用户可能认为模型有预测不准。那么一种”补偿“的方案就是测试中每个神经元的权重都乘以一个p,这样在“总体上”使得测试数据和训练数据是大致一样的。比如一个神经元的输出是x,那么在训练的时候它有p的概率参与训练,(1-0)的概率丢弃,那么它输出的期望是Wpx+W(1-p) 0=px。因此测试的时候把这个神经元d的权重乘以p可以得到同样的期望。(虽然不能保证每次训练和测试时的数据比例相同,但保证整体的期望相同)
结合自己
简单地说,卷积+最大池化约等于平移不变性。
卷积:简单地说,图像经过平移,相应的特征图上的表达也是平移的。
在神经网络中,卷积被定义为不同位置的特征检测器,也就意味着,无论目标出现在图像中的哪个位置,它都会检测到同样的这些特征,输出同样的响应。比如人脸被移动到了图像左下角,卷积核直到移动到左下角的位置才会检测到它的特征。
池化:比如最大池化,它返回感受野中的最大值,如果最大值被移动了,但是仍然在这个感受野中,那么池化层也仍然会输出相同的最大值。这就有点平移不变的意思了。
解决的问题是什么:分类器中总会存在分错的情况,我们需要加一些松弛条件,允许分错的情况发生,但是要给予一定的惩罚。
hinge loss 二分类表达式:
m
a
x
(
0
,
1
−
y
(
w
x
+
b
)
)
max(0,1-y(wx+b))
max(0,1−y(wx+b))
也就是说点在支持向量以外的话,右边的就小于0,惩罚损失就为0,即已经远离的点不增加损失,同理在支持向量以内或者跑到另一边的话,右边就大于0,即有损失项
在SVM中,软间隔的表达式为:
min
w
,
b
1
2
∥
w
∥
2
+
C
∗
l
o
s
s
\min _{w, b} \frac{1}{2}\|w\|^{2}+C *loss
w,bmin21∥w∥2+C∗loss
https://cloud.tencent.com/developer/news/246964
https://blog.csdn.net/kangyi411/article/details/78969642
https://blog.csdn.net/jk123vip/article/details/80591619
https://www.cnblogs.com/guoyaohua/p/8724433.html
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。