赞
踩
Datawhale开源学习,机器学习课程,项目地址:https://github.com/datawhalechina/leeml-notes
之前学习机器学习的时候,总结了三步:
这三步所做的事情就是选择函数模型,优化函数模型,选出最好的拟合模型。在深度学习中,我们通过神经网络构建多层神经网络,输出结果由输入结合权重及偏差bias计算得出。神经网络使得我们可以构建出大量的函数。并不断优化拟合,输出最终结果。
深度学习归纳出三个步骤为:
与机器学习不同的地方就在于,第一处并非通过函数拟合,而是建立神经网络。接下来来说说这三步。
神经网络中,由多个输入和输出连接而成,其内部的连接方式也有很多种,这样就会在神经网络中产生不同的结构。其内部也有很多逻辑回归函数,每个逻辑回归都有自己的权重和偏差,这些权重和偏差就是参数,会被不断的训练。
最常见的一种神经网络:全连接前馈神经网络,前馈(feedforward)也可以称为前向,从信号流向来理解就是输入信号进入网络后,信号流动是单向的,即信号从前一层流向后一层,一直到输出层,其中任意两层之间的连接并没有反馈(feedback),亦即信号没有从后一层又返回到前一层。如果一个神经网络里面的权重weight和偏差bias已知的话,它就可以表示一个函数function,它的input是一个向量,output也是个向量,这个向量里放的是样本点的特征,向量的维度就是特征的个数。
如果我们不知道参数,只定义出神经网络结构(神经元如何连接在一起),那实际上说明我们定义了一个函数集合(funciton set),我们给这个神经网络设置不同的参数,它就会变成不同的function。神经网络的好处在于,它可以构建的非常庞大,构建出来的function set包含了很多逻辑回归和线性回归所无法包含到的function。
下图中,每一排表示一个layer,每个layer里面的每一个球都代表一个神经元。因为layer和layer之间,所有的神经元都是两两连接,所以它叫Fully connected的network;因为现在传递的方向是从layer 1->2->3,由前往后传,所以它叫做Feedforward network
network的运作过程,我们通常会用Matrix Operation来表示,以下图为例,假设第一层hidden layers的两个neuron,它们的weight分别是
w
1
=
1
,
w
2
=
−
2
,
w
1
′
=
−
1
,
w
2
′
=
1
w_1=1,w_2=-2,w_1'=-1,w_2'=1
w1=1,w2=−2,w1′=−1,w2′=1,那就可以把它们排成一个matrix:
[
1
−
2
−
1
1
]
这里还是用Logistic Regression迁移过来的sigmoid function作为运算
σ
(
[
1
−
2
−
1
1
]
[
1
−
1
]
+
[
1
0
]
)
=
σ
(
[
4
−
2
]
)
=
[
0.98
0.12
]
\sigma(
这里我们把所有的变量都以matrix的形式表示出来,注意
W
i
W^i
Wi的matrix,每一行对应的是一个neuron的weight,行数就是neuron的个数,列数就是feature的数量。input x,bias b和output y都是一个列向量,行数是feature的个数,也是neuron的个数。neuron的本质就是把feature transform到另一个space。
把这件事情写成矩阵运算的好处是,可以用GPU加速,GPU对matrix的运算是比CPU要来的快的,所以我们写neural network的时候,习惯把它写成matrix operation,然后call GPU来加速它。
前面说大致把神经网络划分为输入层、隐藏层、输出层三部分。这个隐藏层其实就相当于是在做特征提取,隐藏层的特征提取就代替了手动进行特征转换的操作。经过特征提取得到的output输出 x 1 , x 2 , . . . , x k x_1,x_2,...,x_k x1,x2,...,xk就可悲当作一组新的feature特征。
输出层做的事情类似于一个Multi-class classifier,它是拿经过「特征提取」转换后的那一组比较好的feature(能够被很好地separate)进行分类的,由于我们把「输出层」看做是一个Multi-class classifier,所以我们会在最后一个layer加上softmax。
模型评估用来反映网络的loss,机器学习中通过loss function损失函数去评判模型的好坏,在神经网络中,这里的loss function我们通常采用交叉熵(cross entropy)函数来作为定义,对
y
y
y和
y
^
\hat{y}
y^的损失进行计算,接下来我们就是调整参数,让交叉熵越小越好。以下为交叉熵的定义:
C
r
o
s
s
E
n
t
r
o
p
y
:
C
(
y
,
y
^
)
=
−
∑
i
=
1
10
y
^
i
l
n
y
i
Cross \ Entropy :C(y,\hat{y})=-\sum\limits_{i=1}^{10}\hat{y}_i lny_i
Cross Entropy:C(y,y^)=−i=1∑10y^ilnyi
对于损失,我们不单单要计算一笔数据的,而是要计算整体所有训练数据的损失,然后把所有的训练数据的损失都加起来,得到一个总体损失
L
=
∑
n
=
1
N
C
n
L=\sum\limits_{n=1}^NC^n
L=n=1∑NCn。接下来就是在function set里面找到一组函数能最小化这个总体损失
L
L
L,或者是找一组神经网络的参数
θ
\theta
θ,来最小化总体损失
L
L
L。
接下来就去调整参数,让这个cross entropy越小越好,当然整个training data里面不会只有一笔data,你需要把所有data的cross entropy都sum起来,得到一个total loss L = ∑ n = 1 N C n L=\sum\limits_{n=1}^NC^n L=n=1∑NCn,得到loss function之后你要做的事情是找一组network的parameters: θ ∗ \theta^* θ∗,它可以minimize这个total loss,这组parameter 对应的function就是我们最终训练好的model。那怎么去找这个使total loss minimize的 θ ∗ \theta^* θ∗呢?使用的方法就是我们的老朋友Gradient Descent梯度下降。实际上在deep learning里面用gradient descent,跟在linear regression里面使用完全没有什么差别,只是function和parameter变得更复杂了而已,其他事情都是一模一样的。
现在你的 θ \theta θ里面是一大堆的weight、bias参数,先random找一个初始值,接下来去计算每一个参数对total loss的偏微分,把这些偏微分全部集合起来,就叫做gradient,有了这些偏微分以后,你就可以更新所有的参数,都减掉learning rate乘上偏微分的值,这个process反复进行下去,最终找到一组好的参数,就做完deep learning的training了。
具体流程:
θ
\theta
θ是一组包含权重和偏差的参数集合,随机找一个初试值,接下来计算一下每个参数对应偏微分,得到的一个偏微分的集合
∇
L
\nabla{L}
∇L就是梯度,有了这些偏微分,我们就可以不断更新梯度得到新的参数,这样不断反复进行,就能得到一组最好的参数使得损失函数的值最小。
所以,其实deep learning就是这样子了,就算是alpha go,也是用gradient descent train出来的,可能在你的想象中它有多么得高大上,实际上就是在用gradient descent这样朴素的方法。
Backpropagation(反向传播),就是告诉我们用gradient descent来train一个neural network的时候该怎么做,它只是求微分的一种方法,而不是一种新的算法。梯度下降法,跟linear Regression或者是Logistic Regression是一模一样的,唯一的区别就在于当它用在neural network的时候,network parameters θ = w 1 , w 2 , . . . , b 1 , b 2 , . . . \theta=w_1,w_2,...,b_1,b_2,... θ=w1,w2,...,b1,b2,...里面可能会有将近million个参数。
所以现在最大的困难是,如何有效地把这个近百万维的vector给计算出来,这就是Backpropagation要做的事情,所以Backpropagation并不是一个和gradient descent不同的training的方法,它就是gradient descent,它只是一个比较有效率的算法,让你在计算这个gradient的vector的时候更有效率。
反向传播中没有什么高深的学问,在进行反向传播时,用到的是链式法则,你只需要搞清楚什么是链式法则即可,尝试考虑以下两种情况:
第一种情况,
x
x
x作为输入,当
x
x
x在神经网络中不断被修改时,
x
x
x作为输入会影响到输出
y
y
y,然后在下一层,
y
y
y作为
z
z
z的输入,当
y
y
y发生改变时,又回影响到
z
z
z。如果要计算
z
z
z受
x
x
x的变换时,可以将
d
z
d
x
\frac{dz}{dx}
dxdz拆分为
d
z
d
y
∗
d
y
d
x
\frac{dz}{dy}*\frac{dy}{dx}
dydz∗dxdy。
第二种情况相较第一种情况而言,是一种多变量的形式,因此在求微分时,需要对每一个变量求偏导数去计算。以上就是链式法则求导数的操作。
对整个neural network,我们定义了一个loss function: L ( θ ) = ∑ n = 1 N C n ( θ ) L(\theta)=\sum\limits_{n=1}^N C^n(\theta) L(θ)=n=1∑NCn(θ),它等于所有training data的loss之和。我们把training data里任意一个样本点 x n x^n xn代到neural network里面,它会output一个 y n y^n yn,我们把这个output跟样本点本身的label标注的target y ^ n \hat{y}^n y^n作cross entropy,这个交叉熵定义了output y n y^n yn和target y ^ n \hat{y}^n y^n之间的距离 C n ( θ ) C^n(\theta) Cn(θ),如果cross entropy比较大的话,说明output和target之间距离很远,这个network的parameter的loss是比较大的,反之则说明这组parameter是比较好的。
然后summation over所有training data的cross entropy
C
n
(
θ
)
C^n(\theta)
Cn(θ),得到total loss
L
(
θ
)
L(\theta)
L(θ),这就是我们的loss function,用这个
L
(
θ
)
L(\theta)
L(θ)对某一个参数
ω
\omega
ω做偏微分,表达式如下:
∂
L
(
θ
)
∂
w
=
∑
n
=
1
N
∂
C
n
(
θ
)
∂
w
\frac{\partial L(\theta)}{\partial w}=\sum\limits_{n=1}^N\frac{\partial C^n(\theta)}{\partial w}
∂w∂L(θ)=n=1∑N∂w∂Cn(θ)
这个表达式告诉我们,只需要考虑如何计算对某一笔data的 ∂ C n ( θ ) ∂ w \frac{\partial C^n(\theta)}{\partial w} ∂w∂Cn(θ),再将所有training data的cross entropy对参数 w w w的偏微分累计求和,就可以把total loss对某一个参数 w w w的偏微分给计算出来
我们先考虑某一个神经元,假设只有两个input x 1 , x 2 x_1,x_2 x1,x2,通过这个neuron,我们先得到 z = b + w 1 x 1 + w 2 x 2 z=b+w_1 x_1+w_2 x_2 z=b+w1x1+w2x2,然后经过activation function从这个neuron中output出来,作为后续neuron的input,再经过了非常非常多的事情以后,会得到最终的output y 1 , y 2 y_1,y_2 y1,y2
现在的问题是这样:
∂
C
∂
w
\frac{\partial C}{\partial w}
∂w∂C该怎么算?按照chain rule,可以把它拆分成两项,
∂
C
∂
w
=
∂
z
∂
w
∂
C
∂
z
\frac{\partial C}{\partial w}=\frac{\partial z}{\partial w} \frac{\partial C}{\partial z}
∂w∂C=∂w∂z∂z∂C,这两项分别去把它计算出来。前面这一项是比较简单的,后面这一项是比较复杂的,计算前面这一项
∂
z
∂
w
\frac{\partial z}{\partial w}
∂w∂z的这个process,我们称之为Forward pass;而计算后面这项
∂
C
∂
z
\frac{\partial C}{\partial z}
∂z∂C的process,我们称之为Backward pass。
先考虑 ∂ z ∂ w \frac{\partial z}{\partial w} ∂w∂z这一项,完全可以秒算出来, ∂ z ∂ w 1 = x 1 , ∂ z ∂ w 2 = x 2 \frac{\partial z}{\partial w_1}=x_1 ,\ \frac{\partial z}{\partial w_2}=x_2 ∂w1∂z=x1, ∂w2∂z=x2。它的规律是这样的:求 ∂ z ∂ w \frac{\partial z}{\partial w} ∂w∂z,就是看 w w w前面连接的input是什么,那微分后的 ∂ z ∂ w \frac{\partial z}{\partial w} ∂w∂z值就是什么,因此只要计算出neural network里面每一个neuron的output就可以知道任意的 z z z对 w w w的偏微分。
再考虑 ∂ C ∂ z \frac{\partial C}{\partial z} ∂z∂C这一项,它是比较复杂的,这里我们假设activation function是sigmoid function
我们的 z z z通过activation function得到 a a a,这个neuron的output是 a = σ ( z ) a=\sigma(z) a=σ(z),接下来这个 a a a会乘上某一个weight w 3 w_3 w3,再加上其它一大堆的value得到 z ′ z' z′,它是下一个neuron activation function的input,然后 a a a又会乘上另一个weight w 4 w_4 w4,再加上其它一堆value得到 z ′ ′ z'' z′′,后面还会发生很多很多其他事情。
不过这里我们就只先考虑下一步会发生什么事情:
∂
C
∂
z
=
∂
a
∂
z
∂
C
∂
a
\frac{\partial C}{\partial z}=\frac{\partial a}{\partial z} \frac{\partial C}{\partial a}
∂z∂C=∂z∂a∂a∂C
这里的
∂
a
∂
z
\frac{\partial a}{\partial z}
∂z∂a实际上就是activation function的微分(在这里就是sigmoid function的微分),接下来的问题是
∂
C
∂
a
\frac{\partial C}{\partial a}
∂a∂C应该长什么样子呢?
a
a
a会影响
z
′
z'
z′和
z
′
′
z''
z′′,而
z
′
z'
z′和
z
′
′
z''
z′′会影响
C
C
C,所以通过chain rule可以得到
∂
C
∂
a
=
∂
z
′
∂
a
∂
C
∂
z
′
+
∂
z
′
′
∂
a
∂
C
∂
z
′
′
\frac{\partial C}{\partial a}=\frac{\partial z'}{\partial a} \frac{\partial C}{\partial z'}+\frac{\partial z''}{\partial a} \frac{\partial C}{\partial z''}
∂a∂C=∂a∂z′∂z′∂C+∂a∂z′′∂z′′∂C
这里的
∂
z
′
∂
a
=
w
3
\frac{\partial z'}{\partial a}=w_3
∂a∂z′=w3,
∂
z
′
′
∂
a
=
w
4
\frac{\partial z''}{\partial a}=w_4
∂a∂z′′=w4,那
∂
C
∂
z
′
\frac{\partial C}{\partial z'}
∂z′∂C和
∂
C
∂
z
′
′
\frac{\partial C}{\partial z''}
∂z′′∂C又该怎么算呢?这里先假设我们已经通过某种方法把
∂
C
∂
z
′
\frac{\partial C}{\partial z'}
∂z′∂C和
∂
C
∂
z
′
′
\frac{\partial C}{\partial z''}
∂z′′∂C这两项给算出来了,然后回过头去就可以把
∂
C
∂
z
\frac{\partial C}{\partial z}
∂z∂C给轻易地算出来
∂
C
∂
z
=
∂
a
∂
z
∂
C
∂
a
=
σ
′
(
z
)
[
w
3
∂
C
∂
z
′
+
w
4
∂
C
∂
z
′
′
]
\frac{\partial C}{\partial z}=\frac{\partial a}{\partial z} \frac{\partial C}{\partial a}=\sigma'(z)[w_3 \frac{\partial C}{\partial z'}+w_4 \frac{\partial C}{\partial z''}]
∂z∂C=∂z∂a∂a∂C=σ′(z)[w3∂z′∂C+w4∂z′′∂C]
这个式子还是蛮简单的,然后,我们可以从另外一个观点来看待这个式子。你可以想象说,现在有另外一个neuron,它不在我们原来的network里面,在下图中它被画成三角形,这个neuron的input就是 ∂ C ∂ z ′ \frac{\partial C}{\partial z'} ∂z′∂C和 ∂ C ∂ z ′ ′ \frac{\partial C}{\partial z''} ∂z′′∂C,那input ∂ C ∂ z ′ \frac{\partial C}{\partial z'} ∂z′∂C就乘上 w 3 w_3 w3,input ∂ C ∂ z ′ ′ \frac{\partial C}{\partial z''} ∂z′′∂C就乘上 w 4 w_4 w4,它们两个相加再乘上activation function的微分 σ ′ ( z ) \sigma'(z) σ′(z),就可以得到output ∂ C ∂ z \frac{\partial C}{\partial z} ∂z∂C
这张图描述了一个新的「neuron」,它的含义跟图下方的表达式是一模一样的,作这张图的目的是为了方便理解。值得注意的是,这里的 σ ′ ( z ) \sigma'(z) σ′(z)是一个constant常数,它并不是一个function,因为z其实在计算forward pass的时候就已经被决定好了,z是一个固定的值
所以这个neuron其实跟我们之前看到的sigmoid function是不一样的,它并不是把input通过一个non-linear进行转换,而是直接把input乘上一个constant σ ′ ( z ) \sigma'(z) σ′(z),就得到了output,因此这个neuron被画成三角形,代表它跟我们之前看到的圆形的neuron的运作方式是不一样的,它是直接乘上一个constant(这里的三角形有点像电路里的运算放大器op-amp,它也是乘上一个constant)。现在我们最后需要解决的问题是,怎么计算 ∂ C ∂ z ′ \frac{\partial C}{\partial z'} ∂z′∂C和 ∂ C ∂ z ′ ′ \frac{\partial C}{\partial z''} ∂z′′∂C这两项,假设有两个不同的case:
假设蓝色的这个neuron已经是hidden layer的最后一层了,也就是说连接在
z
′
z'
z′和
z
′
′
z''
z′′后的这两个红色的neuron已经是output layer,它的output就已经是整个network的output了,这个时候计算就比较简单:
∂
C
∂
z
′
=
∂
y
1
∂
z
′
∂
C
∂
y
1
\frac{\partial C}{\partial z'}=\frac{\partial y_1}{\partial z'} \frac{\partial C}{\partial y_1}
∂z′∂C=∂z′∂y1∂y1∂C
其中
∂
y
1
∂
z
′
\frac{\partial y_1}{\partial z'}
∂z′∂y1就是output layer的activation function (softmax) 对
z
′
z'
z′的偏微分。而
∂
C
∂
y
1
\frac{\partial C}{\partial y_1}
∂y1∂C就是loss对
y
1
y_1
y1的偏微分,它取决于你的loss function是怎么定义的,也就是你的output和target之间是怎么evaluate的,你可以用cross entropy,也可以用mean square error,用不同的定义,
∂
C
∂
y
1
\frac{\partial C}{\partial y_1}
∂y1∂C的值就不一样。这个时候,你就已经可以把
C
C
C对
w
1
w_1
w1和
w
2
w_2
w2的偏微分
∂
C
∂
w
1
\frac{\partial C}{\partial w_1}
∂w1∂C、
∂
C
∂
w
2
\frac{\partial C}{\partial w_2}
∂w2∂C算出来了。
假设现在红色的neuron并不是整个network的output,那 z ′ z' z′经过红色neuron的activation function得到 a ′ a' a′,然后output a ′ a' a′和 w 5 w_5 w5、 w 6 w_6 w6相乘并加上一堆其他东西分别得到 z a z_a za和 z b z_b zb,如下图所示:
根据之前的推导证明类比,如果知道
∂
C
∂
z
a
\frac{\partial C}{\partial z_a}
∂za∂C和
∂
C
∂
z
b
\frac{\partial C}{\partial z_b}
∂zb∂C,我们就可以计算
∂
C
∂
z
′
\frac{\partial C}{\partial z'}
∂z′∂C,如下图所示,借助运算放大器的辅助理解,将
∂
C
∂
z
a
\frac{\partial C}{\partial z_a}
∂za∂C乘上
w
5
w_5
w5和
∂
C
∂
z
b
\frac{\partial C}{\partial z_b}
∂zb∂C乘上
w
6
w_6
w6的值加起来再通过op-amp,乘上放大系数
σ
′
(
z
′
)
\sigma'(z')
σ′(z′),就可以得到output
∂
C
∂
z
′
\frac{\partial C}{\partial z'}
∂z′∂C。
∂
C
∂
z
′
=
σ
′
(
z
′
)
[
w
5
∂
C
∂
z
a
+
w
6
∂
C
∂
z
b
]
\frac{\partial C}{\partial z'}=\sigma'(z')[w_5 \frac{\partial C}{\partial z_a} + w_6 \frac{\partial C}{\partial z_b}]
∂z′∂C=σ′(z′)[w5∂za∂C+w6∂zb∂C]
知道 z ′ z' z′和 z ′ ′ z'' z′′就可以知道 z z z,知道 z a z_a za和 z b z_b zb就可以知道 z ′ z' z′,… ,现在这个过程就可以反复进行下去,直到找到output layer,我们可以算出确切的值,然后再一层一层反推回去。你可能会说,这个方法听起来挺让人崩溃的,每次要算一个微分的值,都要一路往后走,一直走到network的output,如果写成表达式的话,一层一层往后展开,感觉会是一个很可怕的式子,但是实际上并不是这个样子做的。你只要换一个方向,从output layer的 ∂ C ∂ z \frac{\partial C}{\partial z} ∂z∂C开始算,你就会发现它的运算量跟原来的network的Feedforward path其实是一样的。
假设现在有6个neuron,每一个neuron的activation function的input分别是 z 1 z_1 z1、 z 2 z_2 z2、 z 3 z_3 z3、 z 4 z_4 z4、 z 5 z_5 z5、 z 6 z_6 z6,我们要计算 C C C对这些 z z z的偏微分,按照原来的思路,我们想要知道 z 1 z_1 z1的偏微分,就要去算 z 3 z_3 z3和 z 4 z_4 z4的偏微分,想要知道 z 3 z_3 z3和 z 4 z_4 z4的偏微分,就又要去计算两遍 z 5 z_5 z5和 z 6 z_6 z6的偏微分,因此如果我们是从 z 1 z_1 z1、 z 2 z_2 z2的偏微分开始算,那就没有效率。但是,如果你反过来先去计算 z 5 z_5 z5和 z 6 z_6 z6的偏微分的话,这个process,就突然之间变得有效率起来了,我们先去计算 ∂ C ∂ z 5 \frac{\partial C}{\partial z_5} ∂z5∂C和 ∂ C ∂ z 6 \frac{\partial C}{\partial z_6} ∂z6∂C,然后就可以算出 ∂ C ∂ z 3 \frac{\partial C}{\partial z_3} ∂z3∂C和 ∂ C ∂ z 4 \frac{\partial C}{\partial z_4} ∂z4∂C,最后就可以算出 ∂ C ∂ z 1 \frac{\partial C}{\partial z_1} ∂z1∂C和 ∂ C ∂ z 2 \frac{\partial C}{\partial z_2} ∂z2∂C,而这一整个过程,就可以转化为op-amp运算放大器的那张图:
这里每一个op-amp的放大系数就是 σ ′ ( z 1 ) \sigma'(z_1) σ′(z1)、 σ ′ ( z 2 ) \sigma'(z_2) σ′(z2)、 σ ′ ( z 3 ) \sigma'(z_3) σ′(z3)、 σ ′ ( z 4 ) \sigma'(z_4) σ′(z4),所以整一个流程就是,先快速地计算出 ∂ C ∂ z 5 \frac{\partial C}{\partial z_5} ∂z5∂C和 ∂ C ∂ z 6 \frac{\partial C}{\partial z_6} ∂z6∂C,然后再把这两个偏微分的值乘上路径上的weight汇集到neuron上面,再通过op-amp的放大,就可以得到 ∂ C ∂ z 3 \frac{\partial C}{\partial z_3} ∂z3∂C和 ∂ C ∂ z 4 \frac{\partial C}{\partial z_4} ∂z4∂C这两个偏微分的值,再让它们乘上一些weight,并且通过一个op-amp,就得到 ∂ C ∂ z 1 \frac{\partial C}{\partial z_1} ∂z1∂C和 ∂ C ∂ z 2 \frac{\partial C}{\partial z_2} ∂z2∂C这两个偏微分的值,这样就计算完了,这个步骤,就叫做Backward pass。
在做Backward pass的时候,实际上的做法就是建另外一个neural network,本来正向neural network里面的activation function都是sigmoid function,而现在计算Backward pass的时候,就是建一个反向的neural network,它的activation function就是一个运算放大器op-amp,要先算完Forward pass得知 z i z_i zi的值后,才算得出来。
每一个反向neuron的input是loss C C C对后面一层layer的 z z z的偏微分 ∂ C ∂ z \frac{\partial C}{\partial z} ∂z∂C,output则是loss C C C对这个neuron的 z z z的偏微分 ∂ C ∂ z \frac{\partial C}{\partial z} ∂z∂C,做Backward pass就是通过这样一个反向neural network的运算,把loss C C C对每一个neuron的 z z z的偏微分 ∂ C ∂ z \frac{\partial C}{\partial z} ∂z∂C都给算出来。
如果是正向做Backward pass的话,实际上每次计算一个 ∂ C ∂ z \frac{\partial C}{\partial z} ∂z∂C,就需要把该neuron后面所有的 ∂ C ∂ z \frac{\partial C}{\partial z} ∂z∂C都给计算一遍,会造成很多不必要的重复运算,如果写成code的形式,就相当于调用了很多次重复的函数;而如果是反向做Backward pass,实际上就是把这些调用函数的过程都变成调用值的过程,因此可以直接计算出结果,而不需要占用过多的堆栈空间。
最后,我们来总结一下Backpropagation是怎么做的:
把通过forward pass得到的
∂
z
∂
w
\frac{\partial z}{\partial w}
∂w∂z和通过backward pass得到的
∂
C
∂
z
\frac{\partial C}{\partial z}
∂z∂C乘起来就可以得到
C
C
C对
w
w
w的偏微分
∂
C
∂
w
\frac{\partial C}{\partial w}
∂w∂C
∂
C
∂
w
=
∂
z
∂
w
∣
f
o
r
w
a
r
d
p
a
s
s
⋅
∂
C
∂
z
∣
b
a
c
k
w
a
r
d
p
a
s
s
\frac{\partial C}{\partial w} = \frac{\partial z}{\partial w}|_{forward\ pass} \cdot \frac{\partial C}{\partial z}|_{backward \ pass}
∂w∂C=∂w∂z∣forward pass⋅∂z∂C∣backward pass
除了学习深度学习以及反向传播理论外,我还使用pytorch跑了一下手写数字识别MNIST,感兴趣的同学可以参考:https://www.kaggle.com/miseryjerry/mnist-pytorch
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。