羊村懒王

这个屌丝很懒，什么也没留下！

热门标签

多层感知机：Multi-Layer Perceptron

作者：羊村懒王 | 2024-02-26 07:01:16

踩

multi-layer perceptron

多层感知机：MLP

多层感知机由感知机推广而来，最主要的特点是有多个神经元层，因此也叫深度神经网络(DNN: Deep Neural Networks)。

感知机：PLA

多层感知机是由感知机推广而来，感知机学习算法(PLA: Perceptron Learning Algorithm)用神经元的结构进行描述的话就是一个单独的。

感知机的神经网络表示如下：

u = \sum_{i = 1}^{n} w_{i} x_{i} + b y = s i g n (u) = {\begin{aligned} + 1, u > 0 \\ - 1, u \leq 0 \end{aligned}

$u = \sum_{i=1}^nw_ix_i+b\\ y = sign (u)=\left \{ \begin{align} +1,\quad u\gt 0\\ -1,\quad u \le 0 \end{align} \right.$
从上述内容更可以看出，PLA是一个线性的二分类器，但不能对非线性的数据并不能进行有效的分类。因此便有了对网络层次的加深，理论上，多层网络可以模拟任何复杂的函数。

多层感知机：MLP

多层感知机的一个重要特点就是多层，我们将第一层称之为输入层，最后一层称之有输出层，中间的层称之为隐层。MLP并没有规定隐层的数量，因此可以根据各自的需求选择合适的隐层层数。且对于输出层神经元的个数也没有限制。
MLP神经网络结构模型如下,本文中只涉及了一个隐层，输入只有三个变量 $[x_1,x_2,x_3]$ 和一个偏置量 $b$ ，输出层有三个神经元。相比于感知机算法中的神经元模型对其进行了集成。

前向传播

前向传播指的是信息从第一层逐渐地向高层进行传递的过程。以下图为例来进行前向传播的过程的分析。
假设第一层为输入层，输入的信息为 $[x_1,x_2,x_3]$ 。对于层 $l$ ，用 $L_l$ 表示该层的所有神经元，其输出为 ${\bf y}_l$ ,其中第 $j$ 个节点的输出为 $y_l^{(j)}$ ,该节点的输入为 $u_l^{(j)}$ ，连接第 $l$ 层与 $第(l-1)$ 层的权重矩阵为 $W _l$ ，上一层（第 $l-1$ 层）的第 $i$ 个节点到第 $l$ 层第 $j$ 个节点的权重为 $w_l^{(ji)}$ 。

结合之前定义的字母标记，对于第二层的三个神经元的输出则有：

\begin{aligned} y_{2}^{(1)} = f (u_{2}^{(1)}) = f (\sum_{i = 1}^{n} w_{2}^{1 i} x_{i} + b_{2}^{(1)}) = f (w_{2}^{(11)} x_{1} + w_{2}^{(12)} x_{2} + w_{2}^{(13)} x_{3} + b_{2}^{(1)}) \\ y_{2}^{(2)} = f (u_{2}^{(2)}) = f (\sum_{i = 1}^{n} w_{2}^{2 i} x_{i} + b_{2}^{(2)}) = f (w_{2}^{(21)} x_{1} + w_{2}^{(22)} x_{2} + w_{2}^{(23)} x_{3} + b_{2}^{(2)}) \\ y_{2}^{(3)} = f (u_{2}^{(3)}) = f (\sum_{i = 1}^{n} w_{2}^{3 i} x_{i} + b_{2}^{(3)}) = f (w_{2}^{(31)} x_{1} + w_{2}^{(32)} x_{2} + w_{2}^{(33)} x_{3} + b_{2}^{(3)}) \end{aligned}

$\begin{align} y_2^{(1)} =f(u_2^{(1)}) = f(\sum_{i =1}^nw_2^{1i}x_i+b_2^{(1)})=f(w_2^{(11)}x_1+w_2^{(12)}x_2+w_2^{(13)}x_3+b_2^{(1)}) \\ y_2^{(2)}=f(u_2^{(2)}) = f(\sum_{i =1}^nw_2^{2i}x_i+b_2^{(2)})=f(w_2^{(21)}x_1+w_2^{(22)}x_2+w_2^{(23)}x_3+b_2^{(2)})\\ y_2^{(3)} =f(u_2^{(3)})= f(\sum_{i =1}^nw_2^{3i}x_i+b_2^{(3)})=f(w_2^{(31)}x_1+w_2^{(32)}x_2+w_2^{(33)}x_3+b_2^{(3)})\\ \end{align}$
将上述的式子转换为矩阵表达式：

y_{2} = [\begin{matrix} y_{2}^{(1)} \\ y_{2}^{(2)} \\ y_{2}^{(3)} \end{matrix}] = f ([\begin{array}{ccc} w_{2}^{11} & w_{2}^{12} & w_{2}^{13} \\ w_{2}^{21} & w_{2}^{22} & w_{2}^{23} \\ w_{2}^{31} & w_{2}^{32} & w_{2}^{33} \end{array}] [\begin{matrix} x_{1} \\ x_{2} \\ x_{3} \end{matrix}] + [\begin{matrix} b_{2}^{(1)} \\ b_{2}^{(2)} \\ b_{2}^{(3)} \end{matrix}]) = f (W_{2} X + b_{2})

${\mathbf y_2}= \left[ \begin{array}{c}y_2^{(1)}\\y_2^{(2)}\\y_2^{(3)}\\ \end{array} \right]=f \left( \left[ \begin{array}{ccc} w_2^{11}&w_2^{12}&w_2^{13}\\ w_2^{21}&w_2^{22}&w_2^{23}\\ w_2^{31}&w_2^{32}&w_2^{33}\\ \end{array} \right] \left[ \begin{array}{c}x_1\\x_2\\x_3\\ \end{array} \right]+ \left[ \begin{array}{c}b_2^{(1)}\\b_2^{(2)}\\b_2^{(3)}\\ \end{array} \right] \right) =f({\mathbf {W_2X+b_2}})$
将第二层的前向传播计算过程推广到网络中的任意一层，则:

{\begin{aligned} y_{l}^{(j)} = f (u_{l}^{(j)}) \\ u_{l}^{(j)} = \sum_{i \in L_{l - 1}} w_{l}^{(j i)} y_{l - 1}^{(i)} + b_{l}^{(j)} \\ y_{l} = f (u_{l}) = f (W_{l} y_{l - 1} + b_{l}) \end{aligned}

$\left\{ \begin {aligned} &y_l^{(j)} = f\left(u_l^{(j)}\right)\\ &u_l^{(j)}=\sum_{i \in L_{l-1}} w_l^{(ji)} y_{l-1}^{(i)} + b_l^{(j)}\\ &\mathbf y_l = f(\mathbf u_l ) = f(\mathbf W_l\mathbf y_{l-1}+\mathbf b_l) \end {aligned} \right.$ 其中

f (\cdot)

$f(\cdot)$ 为激活函数，

b_{l}^{(j)}

$b_l^{(j)}$ 为第

l

$l$ 层第

j

$j$ 个节点的偏置。

反向传播

基本的模型搭建完成后的，训练的时候所做的就是完成模型参数的更新。由于存在多层的网络结构，因此无法直接对中间的隐层利用损失来进行参数更新，但可以利用损失从顶层到底层的反向传播来进行参数的估计。（约定：小写字母—标量，加粗小写字母—向量，大写字母—矩阵）

假设多层感知机用于分类，在输出层有多个神经元，每个神经元对应一个标签。输入样本为 ${\mathbf x}=[x_1,x_2,\cdots,x_n]$ ,其标签为 ${\mathbf t}$ ;
对于层 $l$ ，用 $L_l$ 表示该层的所有神经元，其输出为 ${\bf y}_l$ ,其中第 $j$ 个节点的输出为 $y_l^{(j)}$ ,该节点的输入为 $u_l^{(j)}$ ，连接第 $l$ 层与 $第(l-1)$ 层的权重矩阵为 $W _l$ ，上一层（第 $l-1$ 层）的第 $i$ 个节点到第 $l$ 层第 $j$ 个节点的权重为 $w_l^{(ji)}$ 。

对于网络的最后一层第 $k$ 层——输出层，现在定义损失函数：

\begin{aligned} E & = \frac{1}{2} \sum_{j \in L_{k}} (t^{(j)} - y_{k}^{(j)})^{2} \end{aligned}

$\begin {aligned} E & = \frac {1} {2} \sum_{j \in L_k}(t^{(j)} - y_k^{(j)})^2\\ \end {aligned}$

为了极小化损失函数，通过梯度下降来进行推导：

{\begin{aligned} \frac{\partial E}{\partial w_{l}^{(j i)}} & = \frac{\partial E}{\partial y_{l}^{(j)}} \frac{\partial y_{l}^{(j)}}{\partial w_{l}^{(j i)}} = \frac{\partial E}{\partial y_{l}^{(j)}} \frac{\partial y_{l}^{(j)}}{\partial u_{l}^{(j)}} \frac{\partial u_{l}^{(j)}}{\partial w_{l}^{(j i)}} \\ \frac{\partial E}{\partial b_{l}^{(j)}} & = \frac{\partial E}{\partial y_{l}^{(j)}} \frac{\partial y_{l}^{(j)}}{\partial b_{l}^{(j)}} = \frac{\partial E}{\partial y_{l}^{(j)}} \frac{\partial y_{l}^{(j)}}{\partial u_{l}^{(j)}} \frac{\partial u_{l}^{(j)}}{\partial b_{l}^{(j)}} \end{aligned}

$\left \lbrace \begin {aligned} \frac {\partial E} {\partial w_l^{(ji)}} & = \frac {\partial E} {\partial y_l^{(j)}} \frac {\partial y_l^{(j)}} {\partial w_l^{(ji)}} =\frac {\partial E} {\partial y_l^{(j)}} \frac {\partial y_l^{(j)}} {\partial u_l^{(j)}} \frac {\partial u_l^{(j)}} {\partial w_l^{(ji)}}\\ \frac {\partial E} {\partial b_l^{(j)}} & = \frac {\partial E} {\partial y_l^{(j)}} \frac {\partial y_l^{(j)}} {\partial b_l^{(j)}}= \frac {\partial E} {\partial y_l^{(j)}} \frac {\partial y_l^{(j)}} {\partial u_l^{(j)}} \frac {\partial u_l^{(j)}} {\partial b_l^{(j)}} \end{aligned} \right.$

在上式子中，根据之前的定义，很容易得到：

{\begin{aligned} \frac{\partial y_{l}^{(j)}}{\partial u_{l}^{(j)}} & = f^{'} (u_{l}^{(j)}) \\ \frac{\partial u_{l}^{(j)}}{\partial w_{l}^{(j i)}} & = y_{l - 1}^{(i)} \\ \frac{\partial u_{l}^{(j)}}{\partial b_{l}^{(j)}} & = 1 \end{aligned}

$\left \lbrace \begin {aligned} \frac {\partial y_l^{(j)}} {\partial u_l^{(j)}} & = f'(u_l^{(j)})\\ \frac {\partial u_l^{(j)}} {\partial w_l^{(ji)}} & = y_{l-1}^{(i)}\\ \frac {\partial u_l^{(j)}} {\partial b_l^{(j)}} & = 1 \end {aligned} \right.$
那么则有：

{\begin{aligned} \frac{\partial E}{\partial w_{l}^{(j i)}} & = \frac{\partial E}{\partial y_{l}^{(j)}} \frac{\partial y_{l}^{(j)}}{\partial u_{l}^{(j)}} \frac{\partial u_{l}^{(j)}}{\partial w_{l}^{(j i)}} = \frac{\partial E}{\partial y_{l}^{(j)}} f^{'} (u_{l}^{(j)}) y_{l - 1}^{(i)} \\ \frac{\partial E}{\partial b_{l}^{(j)}} & = \frac{\partial E}{\partial y_{l}^{(j)}} \frac{\partial y_{l}^{(j)}}{\partial u_{l}^{(j)}} \frac{\partial u_{l}^{(j)}}{\partial b_{l}^{(j)}} = \frac{\partial E}{\partial y_{l}^{(j)}} f^{'} (u_{l}^{(j)}) \end{aligned}

$\left \lbrace \begin {aligned} \frac {\partial E} {\partial w_l^{(ji)}} &=\frac {\partial E} {\partial y_l^{(j)}} \frac {\partial y_l^{(j)}} {\partial u_l^{(j)}} \frac {\partial u_l^{(j)}} {\partial w_l^{(ji)}} = \frac {\partial E} {\partial y_l^{(j)}}f'(u_l^{(j)})y_{l-1}^{(i)} \\ \frac {\partial E} {\partial b_l^{(j)}} & = \frac {\partial E} {\partial y_l^{(j)}} \frac {\partial y_l^{(j)}} {\partial u_l^{(j)}} \frac {\partial u_l^{(j)}} {\partial b_l^{(j)}} =\frac {\partial E} {\partial y_l^{(j)}}f'(u_l^{(j)}) \\ \end{aligned} \right.$
另有，下一层所有结点的输入都与前一层的每个结点输出有关，因此损失函数可以认为是下一层的每个神经元结点输入的函数。那么：

\begin{aligned} \frac{\partial E}{\partial y_{l}^{(j)}} & = \frac{\partial E (u_{l + 1}^{(1)}, u_{l + 1}^{(2)}, . . ., u_{l + 1}^{(k)}, . . ., u_{l + 1}^{(K)})}{\partial y_{l}^{(j)}} \\ = \sum_{k \in L_{l + 1}} \frac{\partial E}{\partial u_{l + 1}^{(k)}} \frac{\partial u_{l + 1}^{(k)}}{\partial y_{l}^{(j)}} \\ = \sum_{k \in L_{l + 1}} \frac{\partial E}{\partial y_{l + 1}^{(k)}} \frac{\partial y_{l + 1}^{(k)}}{\partial u_{l + 1}^{(k)}} \frac{\partial u_{l + 1}^{(k)}}{\partial y_{l}^{(j)}} \\ = \sum_{k \in L_{l + 1}} \frac{\partial E}{\partial y_{l + 1}^{(k)}} \frac{\partial y_{l + 1}^{(k)}}{\partial u_{l + 1}^{(k)}} w_{l + 1}^{(k j)} \end{aligned}

$\begin {aligned} \frac {\partial E} {\partial y_l^{(j)}} & = \frac {\partial E(u_{l+1}^{(1)}, u_{l+1}^{(2)}, ..., u_{l+1}^{(k)}, ..., u_{l+1}^{(K)})} {\partial y_l^{(j)}}\\ & = \sum_{k \in L_{l+1}} \frac {\partial E} {\partial u_{l+1}^{(k)}} \frac {\partial u_{l+1}^{(k)}} {\partial y_l^{(j)}}\\ & = \sum_{k \in L_{l+1}} \frac {\partial E} {\partial y_{l+1}^{(k)}} \frac {\partial y_{l+1}^{(k)}} {\partial u_{l+1}^{(k)}} \frac {\partial u_{l+1}^{(k)}} {\partial y_l^{(j)}}\\ & = \sum_{k \in L_{l+1}} \frac {\partial E} {\partial y_{l+1}^{(k)}} \frac {\partial y_{l+1}^{(k)}} {\partial u_{l+1}^{(k)}} w_{l+1}^{(kj)} \end {aligned}$
此处定义节点的灵敏度为误差对输入的变化率，即：

δ = \frac{\partial E}{\partial u}

$\delta = \frac{\partial E}{\partial u}$
那么第

l

$l$ 层第

j

$j$ 个节点的灵敏度为：

δ_{l}^{(j)} = \frac{\partial E}{\partial u_{l}^{(j)}} = \frac{\partial E}{\partial y_{l}^{(j)}} \frac{\partial y_{l}^{(j)}}{\partial u_{l}^{(j)}} = \frac{\partial E}{\partial y_{l}^{(j)}} f^{'} (u_{l}^{(j)})

$\delta_l^{(j)} = \frac{\partial E}{\partial u_l^{(j)}} = \frac{\partial E}{\partial y_l^{(j)}}\frac{\partial y_l^{(j)}}{\partial u_l^{(j)}} =\frac{\partial E}{\partial y_l^{(j)}} f'(u_l^{(j)})$
结合灵敏度的定义，则有：

\begin{aligned} \frac{\partial E}{\partial y_{l}^{(j)}} & = \sum_{k \in L_{l + 1}} \frac{\partial E}{\partial y_{l + 1}^{(k)}} \frac{\partial y_{l + 1}^{(k)}}{\partial u_{l + 1}^{(k)}} w_{l + 1}^{(k j)} \\ = \sum_{k \in L_{l + 1}} δ_{l + 1}^{k} w_{l + 1}^{(k j)} \end{aligned}

$\begin {aligned} \frac {\partial E} {\partial y_l^{(j)}} & = \sum_{k \in L_{l+1}} \frac {\partial E} {\partial y_{l+1}^{(k)}} \frac {\partial y_{l+1}^{(k)}} {\partial u_{l+1}^{(k)}} w_{l+1}^{(kj)} \\ &= \sum_{k \in L_{l+1}} \delta_{l+1}^k w_{l+1}^{(kj)} \\ \end {aligned}$
上式两边同时乘上

f^{'} (u_{l}^{(j)})

$f'(u_l^{(j)})$ ，则有

δ_{l}^{(j)} = \frac{\partial E}{\partial y_{l}^{(j)}} f^{'} (u_{l}^{(j)}) = f^{'} (u_{l}^{(j)}) \sum_{k \in L_{l + 1}} δ_{l + 1}^{k} w_{l + 1}^{(k j)}

$\delta_l^{(j)}=\frac {\partial E} {\partial y_l^{(j)}} f'(u_l^{(j)}) =f'(u_l^{(j)}) \sum_{k \in L_{l+1}} \delta_{l+1}^k w_{l+1}^{(kj)} \\$
注意到上式中表达的是前后两层的灵敏度关系，而对于最后一层，也就是输出层来说，并不存在后续的一层，因此并不满足上式。但输出层的输出是直接和误差联系的，因此可以用损失函数的定义来直接求取偏导数。那么：

δ_{l}^{(j)} = \frac{\partial E}{\partial y_{l}^{(j)}} f^{'} (u_{l}^{(j)}) = {\begin{aligned} f^{'} (u_{l}^{(j)}) \sum_{k \in L_{l + 1}} δ_{l + 1}^{k} w_{l + 1}^{(k j)} l 层 为 隐 层 \\ f^{'} (u_{l}^{(j)}) (y_{l}^{(j)} - t^{(j)}) l 层 为 输 出 层 \end{aligned}

$\delta_l^{(j)}=\frac {\partial E} {\partial y_l^{(j)}} f'(u_l^{(j)})= \left \lbrace \begin{align} &f'(u_l^{(j)}) \sum_{k \in L_{l+1}} \delta_{l+1}^k w_{l+1}^{(kj)} \qquad l层为隐层\\ &f'(u_l^{(j)})(y_l^{(j)}-t^{(j)})\qquad l层为输出层\\ \end{align} \right.$

至此，损失函数对各参数的梯度为：

{\begin{aligned} \frac{\partial E}{\partial w_{l}^{(j i)}} & = \frac{\partial E}{\partial u_{l}^{(j)}} \frac{\partial u_{l}^{(j)}}{\partial w_{l}^{(j i)}} = δ_{l}^{(j)} y_{l - 1}^{(i)} \\ \frac{\partial E}{\partial b_{l}^{(j)}} & = \frac{\partial E}{\partial u_{l}^{(j)}} \frac{\partial u_{l}^{(j)}}{\partial b_{l}^{(j)}} = δ_{l}^{(j)} \end{aligned}

$\left \lbrace \begin {aligned} \frac {\partial E} {\partial w_l^{(ji)}} & = \frac {\partial E} {\partial u_l^{(j)}} \frac {\partial u_l^{(j)}} {\partial w_l^{(ji)}} =\delta_l^{(j)}y_{l-1}^{(i)}\\ \frac {\partial E} {\partial b_l^{(j)}} & = \frac {\partial E} {\partial u_l^{(j)}} \frac {\partial u_l^{(j)}} {\partial b_l^{(j)}}= \delta_l^{(j)} \end{aligned} \right.$
上述的推到都是建立在单个节点的基础上，对于各层所有节点，采用矩阵的方式表示，则上述公式可以写成：

\begin{aligned} \frac{\partial E}{\partial W_{l}} & = δ_{l} y_{l - 1}^{T} \\ \frac{\partial E}{\partial b_{l}} & = δ_{l} \\ δ_{l} & = {\begin{aligned} ( & W_{l + 1}^{T} δ_{l + 1}) \circ f^{'} (u_{l}), l 层 为 隐 层 \\ (y_{l} - t) \circ f^{'} (u_{l}), l 层 为 输 出 层 \end{aligned} \end{aligned}

$\begin {aligned} \frac {\partial E} {\partial \mathbf W_l} & = \mathbf δ_l \mathbf y_{l-1}^{\rm T}\\ \frac {\partial E} {\partial \mathbf b_l} & = \mathbf δ_l\\ \mathbf δ_l & = \left \lbrace \begin {aligned} (&\mathbf W_{l+1}^T \mathbf δ_{l+1}) \circ f'(\mathbf u_l), \qquad l层为隐层\\ &(\mathbf y_l - \mathbf t) \circ f'(\mathbf u_l), \qquad l层为输出层 \end {aligned} \right. \end {aligned}$
其中运算符

\circ

$\circ$ 表示矩阵或者向量中的对应元素相乘。
常见的几个激活函数的导数为：

\begin{aligned} f^{'} (u_{l}) & = s i g m o i d^{'} (u_{l}) = s i g m o i d (u_{l}) (1 - s i g m o i d (u_{l})) = y_{l} (1 - y_{l}) \\ f^{'} (u_{l}) & = t a n h^{'} (u_{l}) = 1 - t a n h^{2} (u_{l}) = 1 - y_{l}^{2} \\ f^{'} (u_{l}) & = s o f t m a x^{'} (u_{l}) = s o f t m a x (u_{l}) - s o f t m a x^{2} (u_{l}) = y_{l} - y_{l}^{2} \end{aligned}

$\begin {aligned} f'(\mathbf u_l) & = sigmoid'(\mathbf u_l) = sigmoid(\mathbf u_l)(1 - sigmoid(\mathbf u_l)) = \mathbf y_l(1 - \mathbf y_l)\\ f'(\mathbf u_l) & = tanh'(\mathbf u_l) = 1 - tanh^2(\mathbf u_l) = 1 - \mathbf y_l^2\\ f'(\mathbf u_l) & = softmax'(\mathbf u_l) = softmax(\mathbf u_l) - softmax^2(\mathbf u_l) = \mathbf y_l - \mathbf y_l^2 \end{aligned}$

根据上述公式，可以得到各层参数的更新公式为：

\begin{aligned} W_{l} & := W_{l} - η \frac{\partial E}{\partial W_{l}} = W_{l} - η δ_{l} y_{l - 1}^{T} \\ b_{l} & := b_{l} - η \frac{\partial E}{\partial b} = b_{l} - η δ_{l} \end{aligned}

$\begin{align} \mathbf W_l &:= \mathbf W_l - \eta\frac{\partial E}{\partial \mathbf W_l}=\mathbf W_l-\eta\mathbf δ_l \mathbf y_{l-1}^{\rm T}\\ \mathbf b_l &:= \mathbf b_l - \eta\frac{\partial E}{\partial b}=\mathbf b_l-\eta\mathbf δ_l \end{align}$

References:

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/羊村懒王/article/detail/144818