笔触狂放9

这个屌丝很懒，什么也没留下！

热门标签

从计算过程领悟反向传播原理_。’。ii′“。!。;-:,,,i?痒。??。??‘:′然‘γ′,′。iidjldii6dvvvvl

作者：笔触狂放9 | 2024-04-11 15:03:59

踩

。’。ii′“。!。;-:,,,i?痒。??。??‘:′然‘γ′,′。iidjldii6dvvvvllitp

文章目录

反向传播

反向传播

学习花费：2个到12点的晚上
李宏毅-反向传播

为什么引入反向传播？

更新参数的过程为：

设有损失函数 $L(\theta)$ ， $\theta是参数向量$ ， $\theta=\{w_1,...,w_n,b_1,...,b_n\}$
- 损失函数衡量预测值 $y_{pred}$ 与真实label $y$ 的距离（差距）
目的是要求loss最小，则求 $\nabla L(\theta)$ ，等价于：
$\partial L/\partial\theta = [\partial L/\partial w_1,...,\partial L/\partial b_n]$
随机初始参数 $\theta^0$ ，更新得到的参数 $\theta^1 = \theta^0 - \eta \nabla L(\theta_0)$
当有数百万个参数时，结合求导的链式法则，按照网络结构的流向，必定是十分繁琐
因此，引入反向传播

简介

梯度下降的一种高效率计算方式，分为：

前向（Forward pass）
后向（Backward pass）

原理及推算过程

图一：总方程式

对每个样本都有一个函数 $C(\theta)$ 计算损失，可以表示为： $loss_{x^n} = C^n_\theta(y_{pred},y)$ ，

而 $y_{pred} = sigmoid(Z^{{layer}_n}(input^{x^{layer_n}}_1*w_1+input^{x^{layer_n}}_2*w_2)+b^{layer_n})$ 。

大概的层次关系可以表示为：

$C_\theta(y_{pred},y)$
$y_{pred}=sigmoid(Z)$
$Z=w_1x_1+w_2x_2+b$
然后2，3步，层层循环，直到输入层

求 $\nabla C(\theta)$ （即单个样本损失的梯度），如求 $\partial C/\partial w_1$ ，就得采用链式法则，网络越深。链越长。

在这里插入图片描述

图二：图一的左上角局部图

前向： $\partial z/\partial w$

该结果就是参数 $w$ 的系数，即输入 $x$ ，如 $\partial z/\partial w_1 = x_1$
所以这部分已知

后向： $\partial C/\partial z$

这一部分要依靠正难则反的思想，根据链式法则来做
即可以继续来拆分来做
这部分现在未知，看后面图求解

在这里插入图片描述

图三：前向

通过前向，可以知道：

每一个 $Z(w_1,w_2,b)$ 函数对参数（自变量）的偏导
图中，随机初始化参数即：参数位置的数值
根据<图二>规律，三个参数的偏导结果分别是红箭头所指，即该层的输入 $i n p u t$

反向

在这里插入图片描述

图四：反向（一）解决 $\partial a / \partial z$

目前按照图二， $\partial C/\partial z$ ，还未知，我们细化后面一层，得到：图中下面的偏导公式。

公式 $\sigma(Z)$ 是激活函数 $s i g m o i d (Z)$

在这里插入图片描述

图五：反向（二），解决 $\partial C \over \partial a$

在这里插入图片描述

图六：反向（二-1），解决 $\partial C / \partial a$ 的其中一部分

剩下❓处未知
这里是C由自变量 $Z^{'}$ 和 $Z^{''}$ 函数组成

综上可表示为：在这里插入图片描述

在这里插入图片描述

图六：反向（三），重点部分，反着求两个未知偏导

$\sigma'(Z)$ 是一个常数，在正向的时候就算出来了
- 因为正向的时候， $Z=w_1x_1+w_2x_2+b$ ，此时参数值和输入值都已知，故 $Z$ 已知

在这里插入图片描述

图七：反向（三-1），假设是算到了输出层

两项偏导可如图一样，如求 $\partial C/\partial Z'$ :

$\partial y_1/\partial Z'$
- 函数表示： $y_1 = \sigma(Z')$ ； $Z'=w_1x_1+w_2x_2+b$
- 都已知，所以可求
$\partial C/\partial y_1$
- 函数表示： $C_\theta(y_1,{y_1}_{true})$
- 可以带入一个具体的损失函数，如均方误差
  - 此时， $y_1$ 是自变量， ${y_1}_{true}$ 是label，一个具体数值，是常量
  - $y_1$ 是自变量是因为
    - 由函数 $y_1 = \sigma(Z')$ 得来

在这里插入图片描述

图八：方向（三-2），假设还没算到输出层

此时情况同图四，以求 $\partial C/\partial Z'$ 为例：

(1) 看链式情况：---->

$Z^{'}$ — $a^{'} = s i g m a (z^{'})$ —(1) $Z_a=w_5a'+....$ ---- $C_\theta(Z_a)$

—(2) $Z_b = w_6a'+....$ ---- $C_\theta(Z_b)$

(2) 所以可以求偏导：
$KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲\begin{split} …$
(3) 这也可以看出，激活函数，在反向的时候，类似一个缩放器

(4) 这样就又回到了图四的情况，以此类推；即看下一层，直到输出层。

反向总结

图九：反向总结（九-1）

从输出层开始依次计算

在这里插入图片描述

图十：反向总结（九-2）

依照图八方式，即可求出所有偏导

总结

在这里插入图片描述

目的是求损失函数 $C=C_\theta(y_{pred},y)$ 对各参数 $\theta=\{w_1,....,b_n\}$ 的偏导，

继而可以使用 $\theta_{new} = \theta_{old}-\eta\nabla C_{\theta}$ 来更新参数

而，对于每个样本来说，损失函数对参数的偏导，由图中两部分组成：

左边：由前向得到，即该参数的系数
右边：由后向得到，即一直递归到输出层，图7：反向（三-1）过程就是。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/笔触狂放9/article/detail/405677

从计算过程领悟反向传播原理_。’。ii′“。!。;-:,,,i?痒。??。??‘:′然‘γ′,′。iidjldii6dvvvvl

文章目录

反向传播

为什么引入反向传播？

简介

原理及推算过程

图一：总方程式

图二：图一的左上角局部图

图三：前向

反向

图四：反向（一）解决 ∂ a / ∂ z \partial a / \partial z ∂a/∂z

图五：反向（二），解决 ∂ C ∂ a \partial C \over \partial a ∂a∂C​

图六：反向（三），重点部分，反着求两个未知偏导

图七：反向（三-1），假设是算到了输出层

图八：方向（三-2），假设还没算到输出层

反向总结

图九：反向总结（九-1）

图十：反向总结（九-2）

总结

图四：反向（一）解决 $\partial a / \partial z$

图五：反向（二），解决 $\partial C \over \partial a$