DL_10——间章(多层感知机、前馈神经网络、全连接网络和反向传播)_多层前馈与反向传播

作者：木道寻08 | 2024-07-23 09:25:20

踩

多层前馈与反向传播

1 多层感知机&前馈神经网络&全连接网络

1.1 概述

1）前馈神经网络 (feedforward neural network)，又称作深度前馈网络(deep feedforward network)、多层感知机(multilayer perceptron，MLP)
顾名思义，该网络中没有反向传播反馈，因此无法自动修改网络参数。

2）全连接网络 (Full connection)
在该网络中，除输入层外，每个节点都和上一层的所有节点两两相连。

2 前向传播

2.1 神经元模型

神经元模型示意图如下：

其中， $x_i$ 表示输入， $w_i$ 表示权重， $z$ 表示输入和， $f$ 表示激活函数， $a$ 表示神经元输出。

由上图可以得出神经元模型的完整表达式：
$z=\sum_{i=1}^{n}w_{i}x_{i}\\ a=f(\mathbf{w}^{T}\mathbf{x} + b)$
其中 $f ()$ 表示激活函数， $\mathbf{w}$ 表示权重是一个列向量， $\mathbf{x}$ 表示输入是一个列向量， $b$ 表示偏置。

2.2 多层感知机(MLP)

如图所示，将多个神经元并列即可形成一层神经神经网络，将多层神经元按顺序排好，就可以组成一个具有多层的神经网络。

其中从左到右，依次为输入层(input layer)、隐藏层(hidden layer)、输出层(output layer)。其中隐藏层可以有多层，而输入层和输出层只能有一层。

在整个神经网络中，信号从左向右按层传输。每一层中的神经元没有信号传输，相邻层之间的神经元两两连接。
多层感知机

2.3 前向传播(Forward Propagation)

从MLP模型取其中的两个隐藏层：
在这里插入图片描述
其中， $l$ 层的输出为 $a^{l}$ ， $l + 1$ 层的输出为 $a^{l+1}$ ，两层之间神经元两两相连，且权重为 $w^{l}$ 。

对于 $l + 1$ 层中的一个神经元，其连接情况如图所示：
在这里插入图片描述
从图中可知， $l$ 层的神经元需要把信号传输给 $l + 1$ 层的神经元。

从中可以得出前向传播表达式：
$z_i^{l+1}=\sum_{j=1}^{n}w_{ij}^{l}a_{j}^{l}\\ a_{i}^{l+1}=f(z^{l+1}_i)$
其中， $w_{ij}^{l}$ 表示第 $l$ 层中第 $j$ 个神经元与第 $l + 1$ 层中第 $i$ 个神经元之间连接的权重 $w$ 。

3 反向传播算法(Backpropagation)

3.1 全连接网络中的反向传播

反向传播中传播的是就是梯度。

在神经网络中，将输出层的结果与label作对比，可以求出loss，然后用loss对权重 $w$ 和偏置 $b$ 可以求出权重 $w$ 和偏置 $b$ 的梯度，然后根据梯度下降算法就可以改变 $w$ 和 $b$ 的值。

然后根据链式法则，将梯度依次传回上一层，从而修改上一层的权重 $w$ 和偏置 $b$ ，如此反复直到输入层，至此即可完成一轮的参数更新。

设：

损失函数 $L (w, b)$
神经元节点值 $z_i^{l+1}=\sum_{j=1}^{n}w_{ij}^{l}a_{j}^{l}$
残差 $\delta_i^l=\frac{\partial{L(w,b)}}{\partial{z_i^l}}$

所以损失函数对权重的偏导数与残差的关系如下：
$\frac{\partial{L(w, b)}}{\partial{w_{ij}^l}}=\frac{\partial{L(w, b)}}{\partial{z_i^{l+1}}}\frac{\partial{z_i^{l+1}}}{\partial{w_{ij}^l}}=\delta_i^{l+1}a_j^{l}$
同理可得损失函数对偏置的偏导数与残差的关系如下：
$\frac{\partial{L(w, b)}}{\partial{b_{i}^l}}=\frac{\partial{L(w, b)}}{\partial{z_i^{l+1}}}\frac{\partial{z_i^{l+1}}}{\partial{b_{i}^l}}=\delta_i^{l+1}$
然后再根据前向传播的方式可以推导出残差之间的关系如下：
$\delta_{i}^{l}=\frac{\partial J}{\partial z_{i}^{l}}\\=\sum_{j=1}^{n_{l+1}} \frac{\partial J}{\partial z_{j}^{l+1}} \cdot \frac{\partial z_{j}^{l+1}}{\partial z_{i}^{l}}\\=\sum_{j=1}^{n_{l+1}} \delta_{j}^{l+1} \cdot \frac{\partial z_{j}^{l+1}}{\partial z_{i}^{l}}\\=\sum_{j=1}^{n_{l+1}} \delta_{j}^{l+1} \cdot w_{ij}^{l} \dot{f}\left(z_{i}^{l}\right)\\=\dot{f}\left(z_{i}^{l}\right) \cdot\left(\sum_{j=1}^{n_{l+1}} \delta_{j}^{l+1} \cdot w_{j i}^{l}\right)$
有了残差的传递关系之后，我们就可以求出每层 $w$ 和 $b$ 的梯度，从而更新每一层的 $w$ 和 $b$ 。
$w_{ij}^{l} = w_{ij}^{l} - \eta a_i^l \delta_j^{l+1}$
$b_{i}^l=b_i^l-\eta \delta_j^{l+1}$

未完待续。。。

2.2 卷积网络中的BP

2.2.1 卷积层BP

2.2.2 池化层BP

2.3 循环神经网络BP

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/木道寻08/article/detail/869292