花生_TL007

这个屌丝很懒，什么也没留下！

热门标签

人人都能看懂的DDPM反向降噪过程公式推导_ddpm推到过程ppt

作者：花生_TL007 | 2024-04-15 20:54:46

踩

ddpm推到过程ppt

0 前言

上一篇介绍了前向加噪过程，得到如下从 $x_0$ 一步到 $x_t$ 过程：

$\alpha_t +\beta_t=1$ ，其中 $\beta_t$ 是正态分布方差，即第 $t$ 步产生的噪声从 $N(0,\beta_t)$ 采样。
$X_t = \sqrt{\overline{\alpha}_t} X_0 + \sqrt{1- \overline{\alpha}_t}z_t$ ，其中 $X_t$ 表示第t步加噪后的图像， $X_0$ 表示初始图像。 $\overline{\alpha}_t = \alpha_t\alpha_{t-1}\alpha_{t-2}...\alpha_1$ ， $z_t$ ~ $N (0, 1)$

可以看到，加噪过程唯一不确定的是从标准正态分布中随机采样的噪声 $z_t$ 。因此，我们训练一个噪声预测模型，模型预测当前图像的噪声 $z_t$ ，记作 $\epsilon$ 。

这样，可以从随机噪声中一步就可以预测到 $X_0=\frac{1}{\sqrt{\overline \alpha_t}} (X_t-\sqrt{1-\overline\alpha_t}\epsilon)$ ，然而，从图像中精准的预测 $z_t$ 比较困难，尤其是在初始随机噪声中。

如果我们知道真实的 $X_0$ ，结合 $X_t$ ，我们可以比较置信的推导出 $x_{t-1}$ 。然而我们不可能知道真实 $X_0$ ，但是可以借助模型预测，虽然从 $X_t$ 直接预测 $X_0$ 不够准确，但是此时预测出的 $X_0$ 是根据当前 $X_t$ 输入预测的最大可能性的 $X_0$ 。可以将模型预测的 $X_0$ 假设为真实 $X_0$ 。直接反推 $X_{t-1}$ ，随着不断地反向迭代降噪，最终得到的 $X_0$ 越来越接近真实分布。

1 数学基础

1.1 重参数技巧

若 $X\sim N(\mu,\sigma^2)，Y\sim N(0, 1)$ , 则从 $X$ 中随机采样 $z$ 等价于从标准正态分布 $Y$ 中采样 $z^{'}$ ， $z=\mu+\sigma z'$

1.2 正态分布概率密度函数

若 $X∼N(\mu,\sigma^2)$ ，则其概率密度函数：
$f(x)=\frac{1}{\sqrt{2\pi}\sigma }e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

1.3 贝叶斯公式
$p(X_{t-1}|X_t) = p(X_t|X_{t-1}) \frac{p(X_{t-1})}{p(X_t)}$

2 由 $x_0$ 、 $x_t$ 反推 $x_{t-1}$

2.1 推断 $x_{t-1}$ 分布

根据加噪过程，有如下4个公式：

\begin{aligned} q (x_{t - 1} | x_{0}) \sim N (\sqrt{{\bar{α}}_{t - 1}} x_{0}, (1 - {\bar{α}}_{t - 1}) I) & 公 式 (1) \\ q (x_{t} | x_{0}) \sim N (\sqrt{{\bar{α}}_{t}} x_{0}, (1 - {\bar{α}}_{t}) I) & 公 式 (2) \\ q (x_{t} | x_{t - 1}) = \sqrt{α_{t}} x_{t - 1} + \sqrt{1 - α_{t}} z_{t} & 公 式 (3) \\ q (x_{t} | x_{t - 1}, x_{0}) = q (x_{t} | x_{t - 1}) \sim N (\sqrt{α_{t}} x_{t - 1}, (1 - α_{t}) I) & 公 式 (4) \end{aligned}

$\begin{aligned} &q(x_{t-1}|x_0) \sim N(\sqrt{\overline{\alpha}_{t-1}}x_0, (1-\overline{\alpha}_{t-1})I) &\qquad 公式(1)\\ &q(x_t|x_0) \sim N(\sqrt{\overline{\alpha}_t}x_0, (1-\overline{\alpha}_t)I) &\qquad 公式(2)\\ \\ &q(x_t|x_{t-1}) =\sqrt{\alpha_t}x_{t-1}+\sqrt{1-\alpha_t}z_t &\qquad 公式(3)\\ &q(x_t|x_{t-1},x_0) = q(x_t|x_{t-1}) \sim N(\sqrt{\alpha_t}x_{t-1},(1-\alpha_t)I) &\qquad 公式(4) \end{aligned}$

q (x_{t - 1} ∣ x_{0}) \sim N (\overline{α}_{t - 1} x_{0}, (1 - \overline{α}_{t - 1}) I) q (x_{t} ∣ x_{0}) \sim N (\overline{α}_{t} x_{0}, (1 - \overline{α}_{t}) I) q (x_{t} ∣ x_{t - 1}) = α_{t} x_{t - 1} + 1 - α_{t} z_{t} q (x_{t} ∣ x_{t - 1}, x_{0}) = q (x_{t} ∣ x_{t - 1}) \sim N (α_{t} x_{t - 1}, (1 - α_{t}) I) 公式 (1) 公式 (2) 公式 (3) 公式 (4)

在已知 $x_t$ 与 $x_0$ 时，反推 $x_{t-1}$ ，套用贝叶斯公式：

\begin{aligned} q (x_{t - 1} | x_{t}, x_{0}) & = \frac{q (x_{t} | x_{t - 1}, x_{0}) q (x_{t - 1} | x_{0})}{q (x_{t} | x_{0})} \\ = \frac{q (x_{t} | x_{t - 1}) q (x_{t - 1} | x_{0})}{q (x_{t} | x_{0})} \end{aligned}

$\begin{aligned} q(x_{t-1}|x_t, x_0) &= \frac{q(x_t|x_{t-1},x_0)q(x_{t-1}|x_0)}{q(x_t|x_0)} \\ &=\frac{q(x_t|x_{t-1})q(x_{t-1}|x_0)}{q(x_t|x_0)} \end{aligned}$

q (x_{t - 1} ∣ x_{t}, x_{0}) = \frac{q ( x _{t} ∣ x _{t - 1} , x _{0} ) q ( x _{t - 1} ∣ x _{0} )}{q ( x _{t} ∣ x _{0} )} = \frac{q ( x _{t} ∣ x _{t - 1} ) q ( x _{t - 1} ∣ x _{0} )}{q ( x _{t} ∣ x _{0} )}

因为

q(x_{t-1}|x_0)

、

q(x_t|x_0)

、

q(x_t|x_{t-1},x_0)

三项都服从正态分布，所以

q(x_{t-1}|x_t, x_0)

服从某个正态分布，接下来只需计算这个正态分布的均值和方差。

2.2 推导 $x_{t-1}$ 均值、方差

从概率密度函数入手， $q(x_{t-1}|x_t, x_0)$ 概率密度如下：

\begin{aligned} \frac{\frac{1}{\sqrt{2 π} \sqrt{1 - α_{t}}} e^{- \frac{(x_{t} - \sqrt{α_{t}} x_{t - 1})^{2}}{2 (1 - α_{t})}} \frac{1}{\sqrt{2 π} \sqrt{1 - {\bar{α}}_{t - 1}}} e^{- \frac{(x_{t - 1} - \sqrt{{\bar{α}}_{t - 1}} x_{0})^{2}}{2 (1 - {\bar{α}}_{t - 1})}}}{\frac{1}{\sqrt{2 π} \sqrt{1 - {\bar{α}}_{t}}} e^{- \frac{(x_{t} - \sqrt{{\bar{α}}_{t}} x_{0})^{2}}{2 (1 - {\bar{α}}_{t})}}} \\ = \frac{1}{\sqrt{2 π} \sqrt{\frac{(1 - α_{t}) (1 - {\bar{α}}_{t - 1})}{1 - {\bar{α}}_{t}}}} e^{- [\frac{(x_{t} - \sqrt{α_{t}} x_{t - 1})^{2}}{2 (1 - α_{t})} + \frac{(x_{t - 1} - \sqrt{{\bar{α}}_{t - 1}} x_{0})^{2}}{2 (1 - {\bar{α}}_{t - 1})} - \frac{(x_{t} - \sqrt{{\bar{α}}_{t}} x_{0})^{2}}{2 (1 - {\bar{α}}_{t})}]} 公 式 (5) \end{aligned}

$\begin{aligned} &\frac{\frac{1}{\sqrt{2\pi}\sqrt{1-\alpha_t}} e^{-\frac{(x_t-\sqrt{\alpha_t}x_{t-1})^2}{2(1-\alpha_t)}} \frac{1}{\sqrt{2\pi}\sqrt{1-\overline{\alpha}_{t-1}} }e^{-\frac{(x_{t-1}-\sqrt{\overline{\alpha}_{t-1}}x_0)^2}{2(1-\overline{\alpha}_{t-1})}}} {\frac{1}{\sqrt{2\pi}\sqrt{1-\overline{\alpha}_t} }e^{-\frac{(x_t-\sqrt{\overline{\alpha}_t}x_0)^2}{2(1-\overline{\alpha}_t)}}} \\ \\ &=\frac{1}{\sqrt{2\pi}\sqrt\frac{(1-\alpha_t)(1-\overline{\alpha}_{t-1})}{1-\overline{\alpha}_t}} e^{-[\frac{(x_t-\sqrt{\alpha_t}x_{t-1})^2}{2(1-\alpha_t)}+\frac{(x_{t-1}-\sqrt{\overline{\alpha}_{t-1}}x_0)^2}{2(1-\overline{\alpha}_{t-1})}-\frac{(x_t-\sqrt{\overline{\alpha}_t}x_0)^2}{2(1-\overline{\alpha}_t)}]} \qquad\qquad公式(5) \end{aligned}$

\frac{\frac{1}{2 π 1 - α _{t}} e ^{- \frac{( x _{t} - α _{t} x _{t - 1} ) ^{2}}{2 ( 1 - α _{t} )}} \frac{1}{2 π 1 - α _{t - 1}} e ^{- \frac{( x _{t - 1} - α _{t - 1} x _{0} ) ^{2}}{2 ( 1 - α _{t - 1} )}}}{\frac{1}{2 π 1 - α _{t}} e ^{- \frac{( x _{t} - α _{t} x _{0} ) ^{2}}{2 ( 1 - α _{t} )}}} = \frac{1}{2 π \frac{( 1 - α _{t} ) ( 1 - α _{t - 1} )}{1 - α _{t}}} e^{- [\frac{( x _{t} - α _{t} x _{t - 1} ) ^{2}}{2 ( 1 - α _{t} )} + \frac{( x _{t - 1} - α _{t - 1} x _{0} ) ^{2}}{2 ( 1 - α _{t - 1} )} - \frac{( x _{t} - α _{t} x _{0} ) ^{2}}{2 ( 1 - α _{t} )}]} 公式 (5)

前面有说到 $q(x_{t-1}|x_t, x_0)$ 服从某个正态分布，因此公式(1)是对应正态分布的概率密度函数。而正态分布的概率密度函数形式为 $f(x)=\frac{1}{\sqrt{2\pi}\sigma }e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ ，对号入座，
$\frac{1}{\sqrt{2\pi}\sigma } e^{(...)}= \frac{1}{\sqrt{2\pi}\sqrt\frac{(1-\alpha_t)(1-\overline{\alpha}_{t-1})}{1-\overline{\alpha}_t}} e^{(...)}$
即可以得知 $q(x_{t-1}|x_t, x_0)$ 的方差只能为：
$\sigma^2 = \frac{(1-\alpha_t)(1-\overline{\alpha}_{t-1})} {1-\overline{\alpha}_t} \qquad\qquad公式(6)$

为了凑成正态分布的概率密度函数，整理指数部分为 $-\frac{(x-\mu)^2}{2\sigma^2}$ ，即分母凑成 $2\sigma^2$ 形式，结合公式(2)：

\begin{aligned} - [\frac{(x_{t} - \sqrt{α_{t}} x_{t - 1})^{2}}{2 (1 - α_{t})} + \frac{(x_{t - 1} - \sqrt{{\bar{α}}_{t - 1}} x_{0})^{2}}{2 (1 - {\bar{α}}_{t - 1})} - \frac{(x_{t} - \sqrt{{\bar{α}}_{t}} x_{0})^{2}}{2 (1 - {\bar{α}}_{t})}] \\ = - [\frac{(x_{t} - \sqrt{α_{t}} x_{t - 1})^{2}}{2 σ^{2}} * \frac{1 - {\bar{α}}_{t - 1}}{1 - {\bar{α}}_{t}} + \frac{(x_{t - 1} - \sqrt{{\bar{α}}_{t - 1}} x_{0})^{2}}{2 σ^{2}} * \frac{1 - α_{t}}{1 - {\bar{α}}_{t}} - \frac{(x_{t} - \sqrt{{\bar{α}}_{t}} x_{0})^{2}}{2 σ^{2}} * \frac{(1 - α_{t}) (1 - {\bar{α}}_{t - 1})}{(1 - {\bar{α}}_{t})^{2}}] \\ = - \frac{1}{2 σ^{2}} [x_{t - 1}^{2} - 2 \frac{\sqrt{α_{t}} (1 - {\bar{α}}_{t - 1}) x_{t} + \sqrt{{\bar{α}}_{t - 1}} (1 - α_{t}) x_{0}}{1 - {\bar{α}}_{t}} x_{t - 1} + (\frac{\sqrt{α_{t}} (1 - {\bar{α}}_{t - 1}) x_{t} + \sqrt{{\bar{α}}_{t - 1}} (1 - α_{t}) x_{0}}{1 - {\bar{α}}_{t}})^{2}] \\ = - \frac{1}{2 σ^{2}} [x_{t - 1} - \frac{\sqrt{α_{t}} (1 - {\bar{α}}_{t - 1}) x_{t} + \sqrt{{\bar{α}}_{t - 1}} (1 - α_{t}) x_{0}}{1 - {\bar{α}}_{t}}]^{2} \end{aligned}

$\begin{aligned} &-[\frac{(x_t-\sqrt{\alpha_t}x_{t-1})^2}{2(1-\alpha_t)}+\frac{(x_{t-1}-\sqrt{\overline{\alpha}_{t-1}}x_0)^2}{2(1-\overline{\alpha}_{t-1})}-\frac{(x_t-\sqrt{\overline{\alpha}_t}x_0)^2}{2(1-\overline{\alpha}_t)}] \\ \\ &=-[\frac{(x_t-\sqrt{\alpha_t}x_{t-1})^2}{2\sigma^2 } * \frac { 1-\overline{\alpha}_{t-1}} {1-\overline{\alpha}_t} +\frac{(x_{t-1}-\sqrt{\overline{\alpha}_{t-1}}x_0)^2}{2\sigma^2} * \frac{1-\alpha_t} {1-\overline{\alpha}_t} -\frac{(x_t-\sqrt{\overline{\alpha}_t}x_0)^2}{2\sigma^2} * \frac{(1-\alpha_t)(1-\overline{\alpha}_{t-1})} {(1-\overline{\alpha}_t)^2} ] \\ \\ &=-\frac{1}{2\sigma^2}[x_{t-1}^2 - 2 \frac{ \sqrt{\alpha_t}(1-\overline\alpha_{t-1})x_t+\sqrt{\overline\alpha_{t-1}}(1-\alpha_t)x_0 }{1-\overline\alpha_t}x_{t-1} +(\frac{ \sqrt{\alpha_t}(1-\overline\alpha_{t-1})x_t+\sqrt{\overline\alpha_{t-1}}(1-\alpha_t)x_0 }{1-\overline\alpha_t})^2 ] \\ \\ &=-\frac{1}{2\sigma^2}[x_{t-1} - \frac{ \sqrt{\alpha_t}(1-\overline\alpha_{t-1})x_t+\sqrt{\overline\alpha_{t-1}}(1-\alpha_t)x_0 }{1-\overline\alpha_t}]^2 \end{aligned}$

- [\frac{( x _{t} - α _{t} x _{t - 1} ) ^{2}}{2 ( 1 - α _{t} )} + \frac{( x _{t - 1} - α _{t - 1} x _{0} ) ^{2}}{2 ( 1 - α _{t - 1} )} - \frac{( x _{t} - α _{t} x _{0} ) ^{2}}{2 ( 1 - α _{t} )}] = - [\frac{( x _{t} - α _{t} x _{t - 1} ) ^{2}}{2 σ ^{2}} * \frac{1 - α _{t - 1}}{1 - α _{t}} + \frac{( x _{t - 1} - α _{t - 1} x _{0} ) ^{2}}{2 σ ^{2}} * \frac{1 - α _{t}}{1 - α _{t}} - \frac{( x _{t} - α _{t} x _{0} ) ^{2}}{2 σ ^{2}} * \frac{( 1 - α _{t} ) ( 1 - α _{t - 1} )}{( 1 - α _{t} ) ^{2}}] = - \frac{1}{2 σ ^{2}} [x_{t - 1}^{2} - 2 \frac{α _{t} ( 1 - α _{t - 1} ) x _{t} + α _{t - 1} ( 1 - α _{t} ) x _{0}}{1 - α _{t}} x_{t - 1} + (\frac{α _{t} ( 1 - α _{t - 1} ) x _{t} + α _{t - 1} ( 1 - α _{t} ) x _{0}}{1 - α _{t}})^{2}] = - \frac{1}{2 σ ^{2}} [x_{t - 1} - \frac{α _{t} ( 1 - α _{t - 1} ) x _{t} + α _{t - 1} ( 1 - α _{t} ) x _{0}}{1 - α _{t}}]^{2}

对号入座，可得均值：

\mu= \frac{ \sqrt{\alpha_t}(1-\overline\alpha_{t-1})x_t+\sqrt{\overline\alpha_{t-1}}(1-\alpha_t)x_0 }{1-\overline\alpha_t} \qquad\qquad公式(7)

将公式(7)中的 $x_0$ 用模型预测噪声 $\epsilon$ 和 $x_t$ 替换:

\begin{aligned} x_{t} = \sqrt{{\bar{α}}_{t}} x_{0} + \sqrt{1 - {\bar{α}}_{t}} ϵ \\ => & x_{0} = \frac{x_{t} - \sqrt{1 - {\bar{α}}_{t}} ϵ}{\sqrt{{\bar{α}}_{t}}} \end{aligned}

$\begin{aligned} &x_t = \sqrt{\overline\alpha_t}x_0+ \sqrt{1-\overline\alpha_t}\epsilon \\ \\ => \quad&x_0 = \frac {x_t- \sqrt{1-\overline\alpha_t}\epsilon}{\sqrt{\overline \alpha_t}} \end{aligned}$

=> x_{t} = \overline{α}_{t} x_{0} + 1 - \overline{α}_{t} ϵ x_{0} = \frac{x _{t} - 1 - α _{t} ϵ}{α _{t}}

替换

x_0

并化简得到均值：

\begin{aligned} μ & = \frac{\sqrt{α_{t}} (1 - {\bar{α}}_{t - 1}) x_{t} + \sqrt{{\bar{α}}_{t - 1}} (1 - α_{t}) x_{0}}{1 - {\bar{α}}_{t}} \\ = \frac{\sqrt{α_{t}} (1 - {\bar{α}}_{t - 1}) x_{t} + \frac{1}{\sqrt{α_{t}}} (1 - α_{t}) (x_{t} - \sqrt{1 - {\bar{α}}_{t}} ϵ)}{1 - {\bar{α}}_{t}} \\ = \frac{1}{\sqrt{α_{t}}} \frac{α_{t} (1 - {\bar{α}}_{t - 1}) x_{t} + (1 - α_{t}) x_{t} - (1 - α_{t}) \sqrt{1 - {\bar{α}}_{t}} ϵ)}{1 - {\bar{α}}_{t}} \\ = \frac{1}{\sqrt{α_{t}}} \frac{(1 - {\bar{α}}_{t}) x_{t} - (1 - α_{t}) \sqrt{1 - {\bar{α}}_{t}} ϵ)}{1 - {\bar{α}}_{t}} \\ = \frac{1}{\sqrt{α_{t}}} (x_{t} - \frac{1 - α_{t}}{\sqrt{1 - {\bar{α}}_{t}}} ϵ) \end{aligned}

至此，我们得到了 $q(x_{t-1}|x_t, x_0)$ 所服从正态分布的均值 $\mu$ 和方差 $\sigma^2$ ：

\begin{aligned} μ & = \frac{1}{\sqrt{α_{t}}} (x_{t} - \frac{1 - α_{t}}{\sqrt{1 - {\bar{α}}_{t}}} ϵ) & 公 式 (8) \\ σ^{2} & = \frac{(1 - α_{t}) (1 - {\bar{α}}_{t - 1})}{1 - {\bar{α}}_{t}} = \frac{1 - {\bar{α}}_{t - 1}}{1 - {\bar{α}}_{t}} β_{t} & 公 式 (9) \end{aligned}

$\begin{aligned} \mu &= \frac{1}{\sqrt{\alpha_t}} (x_t - \frac{ 1-\alpha_t }{\sqrt{1-\overline\alpha_t}} \epsilon)&\qquad\qquad公式(8)\\ \\ \sigma^2 &= \frac{(1-\alpha_t)(1-\overline{\alpha}_{t-1})} {1-\overline{\alpha}_t} = \frac{1-\overline{\alpha}_{t-1}} {1-\overline{\alpha}_t} \beta_t &\qquad\qquad公式(9) \end{aligned}$

μ σ^{2} = \frac{1}{α _{t}} (x_{t} - \frac{1 - α _{t}}{1 - α _{t}} ϵ) = \frac{( 1 - α _{t} ) ( 1 - α _{t - 1} )}{1 - α _{t}} = \frac{1 - α _{t - 1}}{1 - α _{t}} β_{t} 公式 (8) 公式 (9)

注意公式(9)，作者实验发现，

\sigma^2 =\frac{1-\overline{\alpha}_{t-1}} {1-\overline{\alpha}_t} \beta_t

与

\sigma^2 =\beta_t

效果相似。这也很好理解，因为

\frac{1-\overline{\alpha}_{t-1}} {1-\overline{\alpha}_t}

本身就近似等于1。

方差替换后效果相似原文
因此，方差就直接被替换。再次重新整理最终的均值和方差：

\begin{aligned} μ & = \frac{1}{\sqrt{α_{t}}} (x_{t} - \frac{β_{t}}{\sqrt{1 - {\bar{α}}_{t}}} ϵ) \\ σ^{2} & = β_{t} \end{aligned}

$\begin{aligned} \mu &= \frac{1}{\sqrt{\alpha_t}} (x_t - \frac{ \beta_t}{\sqrt{1-\overline\alpha_t}} \epsilon) \\ \\ \sigma^2 &= \beta_t \end{aligned}$

μ σ^{2} = \frac{1}{α _{t}} (x_{t} - \frac{β _{t}}{1 - α _{t}} ϵ) = β_{t}

可得：

$q(x_{t-1}|x_t) \sim N(\mu, \sigma^2) = N(\frac{1}{\sqrt{\alpha_t}} (x_t - \frac{ \beta_t}{\sqrt{1-\overline\alpha_t}} \epsilon) , \beta_t)$

3 反向降噪

利用重参数技巧：

\begin{aligned} x_{t - 1} & = μ_{t} + σ z \\ = \frac{1}{\sqrt{α_{t}}} (x_{t} - \frac{β_{t}}{\sqrt{1 - {\bar{α}}_{t}}} ϵ) + \sqrt{β_{t}} z \end{aligned}

$\begin{aligned} x_{t-1} &= \mu_t + \sigma z \\\\ &=\frac{1}{\sqrt{\alpha_t}} (x_t - \frac{ \beta_t}{\sqrt{1-\overline\alpha_t}} \epsilon) + \sqrt{\beta_t} z \end{aligned}$

x_{t - 1} = μ_{t} + σ z = \frac{1}{α _{t}} (x_{t} - \frac{β _{t}}{1 - α _{t}} ϵ) + β_{t} z

与论文降噪采样算法完全一致。
在这里插入图片描述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/花生_TL007/article/detail/430025