Monodyee

这个屌丝很懒，什么也没留下！

热门标签

扩散模型(一)——DDPM推导笔记-大白话推导_扩散模型的推到

作者：Monodyee | 2024-04-15 20:52:07

踩

扩散模型的推到

扩散模型系列：
（1）扩散模型(一)——DDPM推导笔记-大白话推导
（2）扩散模型(二)——DDIM学习笔记-大白话推导

各位佬看文章之前，可以先去看看这个视频，并给这位up主点赞投币，这位佬讲解的太好了：大白话AI

1.前置知识的学习

1.1 正态分布特性

（1）正态分布的概率密度函数
$\over \sqrt{2 \pi } \sigma} e^{-{{(x-\mu)^2} \over {2 \sigma^2}}} ,记为N(\mu, \sigma^2)$

当 $\mu = 0, \sigma^2=1$ 时，则记为标准正态分布，记为 $N (0, 1)$ , 又称为高斯分布。

（2）正态分布的基本性质
$N(\mu_1, \sigma_1^2) + N(\mu_2, \sigma_2^2) = N(\mu_1+\mu2, \sigma_1^2+\sigma_2^2) \\ a*N(\mu, \sigma) = N(a*\mu, (a*\sigma)^2)$

1.2 贝叶斯定理

$A, B$ 是两个随机事件， $P (A)$ 表示 $事件 A$ 发生的概率， $P (B ∣ A)$ 表示A事件发生的情况下B事件发生的概率，则贝叶斯定理如下：
$\over P(B)}$

2. 前向过程（加噪）

在这里插入图片描述

如图所示，前向过程则是一个加载过程，在每个时间步，都从正态分布中随机采样一个和图片等大的噪声（也可以理解为噪声图片），则加噪过程：
$x_1 = \sqrt{\beta_1} * \epsilon_1 + \sqrt{1-\beta_1} * x_0$
其中 $x_0$ 表示原始图片， $\epsilon_1$ 表示随机噪声， $\beta_1$ 表示扩散速度， $T$ 表示扩散的次数，则可以一次推导：
$x_1 = \sqrt{\beta_1} * \epsilon_1 + \sqrt{1-\beta_1} * x_0 \\ x_2 = \sqrt{\beta_2} * \epsilon_2 + \sqrt{1-\beta_2} * x_1 \\ x_3 = \sqrt{\beta_3} * \epsilon_3 + \sqrt{1-\beta_3} * x_2 \\ ······ \\ x_T = \sqrt{\beta_T} * \epsilon_T + \sqrt{1-\beta_T} * x_{T-1} \\ 前后关系就可以记为： \\ x_t = \sqrt{\beta_t} * \epsilon_t + \sqrt{1-\beta_t} * x_{t-1} \\$
$\beta_0$ 接近0， $\beta_T$ 接近1，原因是越到最后扩散速度越快, 而且是自己事先就要定义好的常数，为简化后续运算，令 $\alpha_t = 1 - \beta_t$ , 则有：
$x_t = \sqrt{1- \alpha_t} * \epsilon_t + \sqrt{\alpha_t} * x_{t-1}$

思考：如何能更快的得到 $x_T$ ？因为如果加噪1000步，岂不是要计算1000次上述的运算！好的，下面介绍怎样依赖正态分布的可加性来简化运算，从而推导出 $x_0$ 到 $x_t$ 的关系：
$\\ x_t = \sqrt{1- \alpha_t} * \epsilon_t + \sqrt{\alpha_t} * x_{t-1} \\ x_{t-1} = \sqrt{1- \alpha_{t-1}} * \epsilon_{t-1} + \sqrt{\alpha_{t-1}} * x_{t-2} \\ 把x_{t-1}代入到x_t中可以推导出： \\ x_t = \sqrt{1- \alpha_t} * \epsilon_t + \sqrt{\alpha_t} * (\sqrt{1- \alpha_{t-1}} * \epsilon_{t-1} + \sqrt{\alpha_{t-1}} * x_{t-2}) \\ = \sqrt{a_t(1-a_{t-1})} * \epsilon_{t-1} + \sqrt{1-a_t} * \epsilon_t + \sqrt{a_t a_{t-1}} * x_{t-2} \\ 其中：\epsilon_{t-1} 和 \epsilon_{t} 是两个随机噪声，且两者是两个独立的随机变量。\\ 打个比喻：我们有一个骰子掷两次分别得到\epsilon_{t-1} 和 \epsilon_{t}，完全可以等效\\ 于我们有两个骰子掷一次。即：一个骰子掷两次的概率分布等同于两个骰子掷一次的概率分布，所以,\\ 如果我们知道两个骰子掷一次的概率分布，然后进行一次采样即可。 \\$

$由正态分布的基本性质可知：\\ \epsilon_t和\epsilon_{t-1}服从N(0, 1),即：\epsilon_t \sim N(0,1), \epsilon_{t-1} \sim N(0,1) \\ 可以推导出： \sqrt{1-a_t} * \epsilon_t \sim N(0, 1- \alpha_t) \\ \sqrt{a_t(1-a_{t-1})} * \epsilon_{t-1} \sim N(0, a_t-a_t*a_{t-1}))$

$\\ \sqrt{a_t(1-a_{t-1})} * \epsilon_{t-1} + \sqrt{1-a_t} * \epsilon_t \sim N(0, 1-a_t*a_{t-1})$

$进而推导出：\\ x_t = \sqrt{1-a_t*a_{t-1}} * \epsilon + \sqrt{a_t*a_{t-1}}*x_{t-2}, 其中：\epsilon \sim N(0, 1-a_t*a_{t-1})$

$这里就可到了x_t和x_{t-2}之间的关系，然后依靠上面的方法就可以一次推导出x_t到x_0的关系(数学归纳法证明)，具体如下： \\ x_t = \sqrt{1 - a_ta_{t-1}a_{t-2}...a_1} * \epsilon + \sqrt{a_ta_{t-1}a_{t-2}...a_1} * x_0 \\ 其中，\epsilon \sim N(0, 1 - a_ta_{t-1}a_{t-2}...a_1)$

$\bar{a}_t = a_ta_{t-1}a_{t-2}...a_1 \\ 则： x_t = \sqrt{1 - \bar{a}_t} * \epsilon + \sqrt{\bar{a}_t} x_0$

至此，前向过程就记录完成了，我们得到 $x_0到x_t$ 的关系，并且可以只通过一次采样就能得到。

3. 反向过程（去噪）

在这里插入图片描述
去噪过程就是从 $x_T$ 一步步反推回 $x_0$ 。

3.1 反向原理推导

由贝叶斯定理：
$\over P(B)}$
我们可以令：
$由于x_t到x_{t-1}是一个随机过程，则令： \\ P(x_{t-1}|x_t): 表示在给定x_t的情况下，x_{t-1}的概率。 \\ 套用贝叶斯定理得： \\ P(x_{t-1} | x_t) = { P(x_t | x_{t-1}) * P(x_{t-1}) \over P(x_t)} \\ 其中，P(x_t)和P(x_{t-1})分别表示x_t和t_{t-1}的概率,也就是从x_0原图得到它们的概率。$
$\\ P(x_{t-1} | x_t,x_0) = { P(x_t | x_{t-1},x_0) * P(x_{t-1} | x_0) \over P(x_t | x_0)} \\$
$\\ P(x_t|x_{t-1}, x_0) 给定x_{t-1}到x_t的概率。 \\ 前向过程中可知： \\ x_t = \sqrt{1- \alpha_t} * \epsilon_t + \sqrt{\alpha_t} * x_{t-1} \\ x_t = \sqrt{1 - \bar{a}_t} * \epsilon + \sqrt{\bar{a}_t} x_0 \\ \epsilon_t和\epsilon分别服从N(0, 1) \\ 从而推导出： \\ x_t \sim N(\sqrt{a_t} x_{t-1}, 1-a_t) \\ 或： \\ x_t \sim N(\sqrt{\bar{a}_t} x_0, 1-\bar{a}_t) \\ 以及： \\ x_{t-1} \sim N(\sqrt{\bar{a}_{t-1}} x_0, 1-\bar{a}_{t-1}) \\$

然后就可以把他们分别写成概率密度形式：

然后将概率密度函数带入到贝叶斯定理中，就可以得到：
在这里插入图片描述
化简成高斯分布得：

$P(x_{t-1}|x_t, x_0)$ =

由此推导出：
在这里插入图片描述
$我们的目的是通过x_t求出x_{t-1},然后由x_{t-1}推导出x_{t-2}···直到求出x_0，\\ 但现在的式子中出现了x_0,怎么办？ \\ 没关系，我们之前由x_t和x_0的关系： \\ x_t = \sqrt{1 - \bar{a}_t} * \epsilon + \sqrt{\bar{a}_t} x_0 \\$
变换可以得到：

将它带入到 $P(x_{t-1}|x_t, x_0)$ 的概率密度函数中可得：
在这里插入图片描述
它表示的是：对于任意 $x_t$ 的图像都可以用 $x_0$ 加载而来；而只要知道了从 $x_0$ 到 $x_t$ 加入的噪声 $\epsilon$ ，就能得到它前一时刻 $x_{t-1}$ 的概率分布，即： $P(x_{t-1}|x_t, x_0)$ 。
其中，可以通过数学变换将 $P(x_{t-1}|x_t, x_0)$ 中的均值部分（即 $\mu$ ）变换成如下形式，更利于代码实现：
在这里插入图片描述
这样 $P(x_{t-1}|x_t, x_0)$ 服从概率分布如下：
$P(x_{t-1}|x_t, x_0) \sim N({1 \over \sqrt{a_t}} (x_t - {{1-a_t} \over \sqrt{1-\bar{a}_t}} \epsilon), (\sqrt{{\beta_t (1-\bar{a}_{t-1}) \over {1- \bar{a}_t}}})^2)$

这里我们就需要使用神经网络，输入 $x_t$ 时刻的图像，预测此图像相对于某个 $x_0$ 原图加入的噪声 $\epsilon$ 。

如图所示，也就是说：

Step1: 在神经网络中，输入 $x_t$ 时刻图像，训练得到此图像相对于某个 $x_0$ 原图加入的噪声 $\epsilon$ 。

Step2： 将噪声 $\epsilon$ 带入到 $x_{t-1}$ 的概率密度函数 $P(x_{t-1}|x_t, x_0)$ 中；

Step3: 从 $x_{t-1}$ 的概率密度函数 $P(x_{t-1}|x_t, x_0)$ 中随机采样，得到 $x_{t-1}$ (即t-1时刻对应的图像)；

Step4: 将 $x_{t-1}$ 作为神经网络的输入，带入到Step1中，循环Step1 ~ Step3，直到得到 $x_0$

DDPM中的神经网络选用的UNet.

3.2 疑难点注解

（1）在反向传播的过程中，训练的 $\epsilon$ 是个固定的值，还是根据 $t$ 的变化而变化的值?

是个固定的值！

理由：在推导反向传播时，为了去掉 $x_0$ 而引入了 $x_t与x_0$ 的关系，
$x_t = \sqrt{1 - \bar{a}_t} * \epsilon + \sqrt{\bar{a}_t} x_0 \\ 其中，\epsilon \sim N(0, 1 - a_ta_{t-1}a_{t-2}...a_1)$

而 $x_t = \sqrt{1 - \bar{a}_t} * \epsilon + \sqrt{\bar{a}_t} x_0$ 中的 $\epsilon$ 在前向传播中已经确定好了，所以神经网络训练的 $\epsilon$ 就是要去接近它。因为在训练过程中的损失函数就是使用的MES_Loss使两个 $\epsilon$ 尽可能一致。

（2）很多代码中 $x_t = \sqrt{1 - \bar{a}_t} * \epsilon + \sqrt{\bar{a}_t} x_0$ 的 $\epsilon$ 并不是从 $\epsilon \sim N(0, 1 - a_ta_{t-1}a_{t-2}...a_1)$ 采样的，而是直接从 $N (0, 1)$ 中采样的，这是为什么？

理由：因为 $a_ta_{t-1}a_{t-2}...a_1$ 非常趋近于0，所以 $1-a_ta_{t-1}a_{t-2}...a_1$ 非常趋近于1。故直接从 $N (0, 1)$ 中采样。

（3）训练过程中的Step3: 从 $x_{t-1}$ 的概率密度函数 $P(x_{t-1}|x_t, x_0)$ 中随机采样，得到 $x_{t-1}$ (即t-1时刻对应的图像)，其中的采样是怎么完成的？

千万不要被什么"采样"、"概率分布"等字眼吓到，其实非常简单！从代码的角度解释就是：

1）我们已知：
$P(x_{t-1}|x_t, x_0) \sim N({1 \over \sqrt{a_t}} (x_t - {{1-a_t} \over \sqrt{1-\bar{a}_t}} \epsilon), (\sqrt{{\beta_t (1-\bar{a}_{t-1}) \over {1- \bar{a}_t}}})^2)$
其中我们输入的是 $x_t$ , 而式子中的 $\epsilon$ 是神经网络需要预测的，其中的 $a_t、 \bar{a}_t、 \beta_t$ 都是事先定义好的。

2）从概率分布中采样

我们现在有了 $x_t, \epsilon$ 和概率分布，怎样得到 $x_{t-1}$ 呢？很简单：

Step1: 从 $N (0, 1)$ 中随机采样一个噪声，代码如下：

noise = torch.randn_like(x_t)	# randn_like(x_t)表示从标准正态分布中采样一个和x_t同维度的noise
1

Step2： 获取概率中的方差var
$\beta_t (1-\bar{a}_{t-1}) \over {1- \bar{a}_t} }$
里面的参数都是已知的。

Step3: 获取概率分布中的均值mean
$\over \sqrt{a_t}} (x_t - {{1-a_t} \over \sqrt{1-\bar{a}_t}} \epsilon)$
里面的 $x_t$ 是输入， $\epsilon$ 是神经网络预测的，其他的都是已知的。

Step4: 从概率分布中采样

很简单的，就是 $x_{t-1}=$ mean + noise * sqrt(var)即可，这样就表示从：
$P(x_{t-1}|x_t, x_0) \sim N({1 \over \sqrt{a_t}} (x_t - {{1-a_t} \over \sqrt{1-\bar{a}_t}} \epsilon), (\sqrt{{\beta_t (1-\bar{a}_{t-1}) \over {1- \bar{a}_t}}})^2)$
进行采样，即得到了 $x_{t-1}$ , 然后把 $x_{t-1}$ 带入到神经网络，重新预测 $\epsilon$ ，重复上述步骤，就可以得到 $x_{t-2}$ ，一直持续，就可以得到 $x_0$ 。

（4）前向加噪是不是只需要一步即可，而反向去噪则需要T步?

对！

理由：前向加噪过程本来是需要T步的，但通过正态分布的性质，让我们一次采样就可以得到和T次采样一样的效果，所以只需要一次即可！

而反向传播中，则需要T步，即：若T=1000,则需要进行1000次预测。因为反向传播依赖马尔科夫链，需要已知 $x_{t}$ 才能得到 $x_{t-1}$ ，只能这样一次次推导才能得出 $x_0$ 。这也是DDPM很大的一个缺点，推理太慢！后面才有DDIM的改进。

至此，本文结束！

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Monodyee/article/detail/430012