当前位置:   article > 正文

人人都能看懂的DDPM反向降噪过程公式推导_ddpm推到过程ppt

ddpm推到过程ppt

0 前言

上一篇介绍了前向加噪过程,得到如下从 x 0 x_0 x0 一步到 x t x_t xt 过程:

  1. α t + β t = 1 \alpha_t +\beta_t=1 αt+βt=1,其中 β t \beta_t βt 是正态分布方差,即第 t t t 步产生的噪声从 N ( 0 , β t ) N(0,\beta_t) N(0,βt) 采样。
  2. X t = α ‾ t X 0 + 1 − α ‾ t z t X_t = \sqrt{\overline{\alpha}_t} X_0 + \sqrt{1- \overline{\alpha}_t}z_t Xt=αt X0+1αt zt,其中 X t X_t Xt表示第t步加噪后的图像, X 0 X_0 X0表示初始图像。 α ‾ t = α t α t − 1 α t − 2 . . . α 1 \overline{\alpha}_t = \alpha_t\alpha_{t-1}\alpha_{t-2}...\alpha_1 αt=αtαt1αt2...α1 z t z_t zt ~ N ( 0 , 1 ) N(0, 1) N(0,1)

可以看到,加噪过程唯一不确定的是从标准正态分布中随机采样的噪声 z t z_t zt。因此,我们训练一个噪声预测模型,模型预测当前图像的噪声 z t z_t zt,记作 ϵ \epsilon ϵ

这样,可以从随机噪声中一步就可以预测到 X 0 = 1 α ‾ t ( X t − 1 − α ‾ t ϵ ) X_0=\frac{1}{\sqrt{\overline \alpha_t}} (X_t-\sqrt{1-\overline\alpha_t}\epsilon) X0=αt 1(Xt1αt ϵ),然而,从图像中精准的预测 z t z_t zt比较困难,尤其是在初始随机噪声中。

如果我们知道真实的 X 0 X_0 X0,结合 X t X_t Xt,我们可以比较置信的推导出 x t − 1 x_{t-1} xt1。然而我们不可能知道真实 X 0 X_0 X0,但是可以借助模型预测,虽然从 X t X_t Xt直接预测 X 0 X_0 X0不够准确,但是此时预测出的 X 0 X_0 X0是根据当前 X t X_t Xt输入预测的最大可能性的 X 0 X_0 X0。可以将模型预测的 X 0 X_0 X0假设为真实 X 0 X_0 X0。直接反推 X t − 1 X_{t-1} Xt1,随着不断地反向迭代降噪,最终得到的 X 0 X_0 X0越来越接近真实分布。

1 数学基础

1.1 重参数技巧

X ∼ N ( μ , σ 2 ) , Y ∼ N ( 0 , 1 ) X\sim N(\mu,\sigma^2),Y\sim N(0, 1) XN(μ,σ2)YN(0,1) , 则从 X X X 中随机采样 z z z 等价于从标准正态分布 Y Y Y 中采样 z ′ z' z z = μ + σ z ′ z=\mu+\sigma z' z=μ+σz

1.2 正态分布概率密度函数

X ∼ N ( μ , σ 2 ) X∼N(\mu,\sigma^2) XN(μ,σ2),则其概率密度函数
f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x)=\frac{1}{\sqrt{2\pi}\sigma }e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x)=2π σ1e2σ2(xμ)2

1.3 贝叶斯公式
p ( X t − 1 ∣ X t ) = p ( X t ∣ X t − 1 ) p ( X t − 1 ) p ( X t ) p(X_{t-1}|X_t) = p(X_t|X_{t-1}) \frac{p(X_{t-1})}{p(X_t)} p(Xt1Xt)=p(XtXt1)p(Xt)p(Xt1)

2 由 x 0 x_0 x0 x t x_t xt 反推 x t − 1 x_{t-1} xt1

2.1 推断 x t − 1 x_{t-1} xt1分布

根据加噪过程,有如下4个公式:
q ( x t − 1 ∣ x 0 ) ∼ N ( α ‾ t − 1 x 0 , ( 1 − α ‾ t − 1 ) I ) 公式 ( 1 ) q ( x t ∣ x 0 ) ∼ N ( α ‾ t x 0 , ( 1 − α ‾ t ) I ) 公式 ( 2 ) q ( x t ∣ x t − 1 ) = α t x t − 1 + 1 − α t z t 公式 ( 3 ) q ( x t ∣ x t − 1 , x 0 ) = q ( x t ∣ x t − 1 ) ∼ N ( α t x t − 1 , ( 1 − α t ) I ) 公式 ( 4 )

q(xt1|x0)N(α¯t1x0,(1α¯t1)I)(1)q(xt|x0)N(α¯tx0,(1α¯t)I)(2)q(xt|xt1)=αtxt1+1αtzt(3)q(xt|xt1,x0)=q(xt|xt1)N(αtxt1,(1αt)I)(4)
q(xt1x0)N(αt1 x0,(1αt1)I)q(xtx0)N(αt x0,(1αt)I)q(xtxt1)=αt xt1+1αt ztq(xtxt1,x0)=q(xtxt1)N(αt xt1,(1αt)I)公式(1)公式(2)公式(3)公式(4)

在已知 x t x_t xt x 0 x_0 x0 时,反推 x t − 1 x_{t-1} xt1,套用贝叶斯公式:

q ( x t − 1 ∣ x t , x 0 ) = q ( x t ∣ x t − 1 , x 0 ) q ( x t − 1 ∣ x 0 ) q ( x t ∣ x 0 ) = q ( x t ∣ x t − 1 ) q ( x t − 1 ∣ x 0 ) q ( x t ∣ x 0 )

q(xt1|xt,x0)=q(xt|xt1,x0)q(xt1|x0)q(xt|x0)=q(xt|xt1)q(xt1|x0)q(xt|x0)
q(xt1xt,x0)=q(xtx0)q(xtxt1,x0)q(xt1x0)=q(xtx0)q(xtxt1)q(xt1x0)
因为 q ( x t − 1 ∣ x 0 ) q(x_{t-1}|x_0) q(xt1x0) q ( x t ∣ x 0 ) q(x_t|x_0) q(xtx0) q ( x t ∣ x t − 1 , x 0 ) q(x_t|x_{t-1},x_0) q(xtxt1,x0) 三项都服从正态分布,所以 q ( x t − 1 ∣ x t , x 0 ) q(x_{t-1}|x_t, x_0) q(xt1xt,x0)服从某个正态分布,接下来只需计算这个正态分布的均值和方差。

2.2 推导 x t − 1 x_{t-1} xt1均值、方差

从概率密度函数入手, q ( x t − 1 ∣ x t , x 0 ) q(x_{t-1}|x_t, x_0) q(xt1xt,x0) 概率密度如下:
1 2 π 1 − α t e − ( x t − α t x t − 1 ) 2 2 ( 1 − α t ) 1 2 π 1 − α ‾ t − 1 e − ( x t − 1 − α ‾ t − 1 x 0 ) 2 2 ( 1 − α ‾ t − 1 ) 1 2 π 1 − α ‾ t e − ( x t − α ‾ t x 0 ) 2 2 ( 1 − α ‾ t ) = 1 2 π ( 1 − α t ) ( 1 − α ‾ t − 1 ) 1 − α ‾ t e − [ ( x t − α t x t − 1 ) 2 2 ( 1 − α t ) + ( x t − 1 − α ‾ t − 1 x 0 ) 2 2 ( 1 − α ‾ t − 1 ) − ( x t − α ‾ t x 0 ) 2 2 ( 1 − α ‾ t ) ] 公式 ( 5 )

12π1αte(xtαtxt1)22(1αt)12π1α¯t1e(xt1α¯t1x0)22(1α¯t1)12π1α¯te(xtα¯tx0)22(1α¯t)=12π(1αt)(1α¯t1)1α¯te[(xtαtxt1)22(1αt)+(xt1α¯t1x0)22(1α¯t1)(xtα¯tx0)22(1α¯t)](5)
2π 1αt 1e2(1αt)(xtαt x0)22π 1αt 1e2(1αt)(xtαt xt1)22π 1αt1 1e2(1αt1)(xt1αt1 x0)2=2π 1αt(1αt)(1αt1) 1e[2(1αt)(xtαt xt1)2+2(1αt1)(xt1αt1 x0)22(1αt)(xtαt x0)2]公式(5)

前面有说到 q ( x t − 1 ∣ x t , x 0 ) q(x_{t-1}|x_t, x_0) q(xt1xt,x0)服从某个正态分布,因此公式(1)是对应正态分布的概率密度函数。而正态分布的概率密度函数形式为 f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x)=\frac{1}{\sqrt{2\pi}\sigma }e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x)=2π σ1e2σ2(xμ)2,对号入座,
1 2 π σ e ( . . . ) = 1 2 π ( 1 − α t ) ( 1 − α ‾ t − 1 ) 1 − α ‾ t e ( . . . ) \frac{1}{\sqrt{2\pi}\sigma } e^{(...)}= \frac{1}{\sqrt{2\pi}\sqrt\frac{(1-\alpha_t)(1-\overline{\alpha}_{t-1})}{1-\overline{\alpha}_t}} e^{(...)} 2π σ1e(...)=2π 1αt(1αt)(1αt1) 1e(...)
即可以得知 q ( x t − 1 ∣ x t , x 0 ) q(x_{t-1}|x_t, x_0) q(xt1xt,x0)的方差只能为:
σ 2 = ( 1 − α t ) ( 1 − α ‾ t − 1 ) 1 − α ‾ t 公式 ( 6 ) \sigma^2 = \frac{(1-\alpha_t)(1-\overline{\alpha}_{t-1})} {1-\overline{\alpha}_t} \qquad\qquad公式(6) σ2=1αt(1αt)(1αt1)公式(6)

为了凑成正态分布的概率密度函数,整理指数部分为 − ( x − μ ) 2 2 σ 2 -\frac{(x-\mu)^2}{2\sigma^2} 2σ2(xμ)2,即分母凑成 2 σ 2 2\sigma^2 2σ2形式,结合公式(2):
− [ ( x t − α t x t − 1 ) 2 2 ( 1 − α t ) + ( x t − 1 − α ‾ t − 1 x 0 ) 2 2 ( 1 − α ‾ t − 1 ) − ( x t − α ‾ t x 0 ) 2 2 ( 1 − α ‾ t ) ] = − [ ( x t − α t x t − 1 ) 2 2 σ 2 ∗ 1 − α ‾ t − 1 1 − α ‾ t + ( x t − 1 − α ‾ t − 1 x 0 ) 2 2 σ 2 ∗ 1 − α t 1 − α ‾ t − ( x t − α ‾ t x 0 ) 2 2 σ 2 ∗ ( 1 − α t ) ( 1 − α ‾ t − 1 ) ( 1 − α ‾ t ) 2 ] = − 1 2 σ 2 [ x t − 1 2 − 2 α t ( 1 − α ‾ t − 1 ) x t + α ‾ t − 1 ( 1 − α t ) x 0 1 − α ‾ t x t − 1 + ( α t ( 1 − α ‾ t − 1 ) x t + α ‾ t − 1 ( 1 − α t ) x 0 1 − α ‾ t ) 2 ] = − 1 2 σ 2 [ x t − 1 − α t ( 1 − α ‾ t − 1 ) x t + α ‾ t − 1 ( 1 − α t ) x 0 1 − α ‾ t ] 2

[(xtαtxt1)22(1αt)+(xt1α¯t1x0)22(1α¯t1)(xtα¯tx0)22(1α¯t)]=[(xtαtxt1)22σ21α¯t11α¯t+(xt1α¯t1x0)22σ21αt1α¯t(xtα¯tx0)22σ2(1αt)(1α¯t1)(1α¯t)2]=12σ2[xt122αt(1α¯t1)xt+α¯t1(1αt)x01α¯txt1+(αt(1α¯t1)xt+α¯t1(1αt)x01α¯t)2]=12σ2[xt1αt(1α¯t1)xt+α¯t1(1αt)x01α¯t]2
[2(1αt)(xtαt xt1)2+2(1αt1)(xt1αt1 x0)22(1αt)(xtαt x0)2]=[2σ2(xtαt xt1)21αt1αt1+2σ2(xt1αt1 x0)21αt1αt2σ2(xtαt x0)2(1αt)2(1αt)(1αt1)]=2σ21[xt1221αtαt (1αt1)xt+αt1 (1αt)x0xt1+(1αtαt (1αt1)xt+αt1 (1αt)x0)2]=2σ21[xt11αtαt (1αt1)xt+αt1 (1αt)x0]2
对号入座,可得均值:
μ = α t ( 1 − α ‾ t − 1 ) x t + α ‾ t − 1 ( 1 − α t ) x 0 1 − α ‾ t 公式 ( 7 ) \mu= \frac{ \sqrt{\alpha_t}(1-\overline\alpha_{t-1})x_t+\sqrt{\overline\alpha_{t-1}}(1-\alpha_t)x_0 }{1-\overline\alpha_t} \qquad\qquad公式(7) μ=1αtαt (1αt1)xt+αt1 (1αt)x0公式(7)

将公式(7)中的 x 0 x_0 x0用模型预测噪声 ϵ \epsilon ϵ x t x_t xt 替换:
x t = α ‾ t x 0 + 1 − α ‾ t ϵ = > x 0 = x t − 1 − α ‾ t ϵ α ‾ t

xt=α¯tx0+1α¯tϵ=>x0=xt1α¯tϵα¯t
=>xt=αt x0+1αt ϵx0=αt xt1αt ϵ
替换 x 0 x_0 x0 并化简得到均值:
μ = α t ( 1 − α ‾ t − 1 ) x t + α ‾ t − 1 ( 1 − α t ) x 0 1 − α ‾ t = α t ( 1 − α ‾ t − 1 ) x t + 1 α t ( 1 − α t ) ( x t − 1 − α ‾ t ϵ ) 1 − α ‾ t = 1 α t α t ( 1 − α ‾ t − 1 ) x t + ( 1 − α t ) x t − ( 1 − α t ) 1 − α ‾ t ϵ ) 1 − α ‾ t = 1 α t ( 1 − α ‾ t ) x t − ( 1 − α t ) 1 − α ‾ t ϵ ) 1 − α ‾ t = 1 α t ( x t − 1 − α t 1 − α ‾ t ϵ )
μ=αt(1α¯t1)xt+α¯t1(1αt)x01α¯t=αt(1α¯t1)xt+1αt(1αt)(xt1α¯tϵ)1α¯t=1αtαt(1α¯t1)xt+(1αt)xt(1αt)1α¯tϵ)1α¯t=1αt(1α¯t)xt(1αt)1α¯tϵ)1α¯t=1αt(xt1αt1α¯tϵ)
μ=1αtαt (1αt1)xt+αt1 (1αt)x0=1αtαt (1αt1)xt+αt 1(1αt)(xt1αt ϵ)=αt 11αtαt(1αt1)xt+(1αt)xt(1αt)1αt ϵ)=αt 11αt(1αt)xt(1αt)1αt ϵ)=αt 1(xt1αt 1αtϵ)

至此,我们得到了 q ( x t − 1 ∣ x t , x 0 ) q(x_{t-1}|x_t, x_0) q(xt1xt,x0)所服从正态分布的均值 μ \mu μ 和方差 σ 2 \sigma^2 σ2
μ = 1 α t ( x t − 1 − α t 1 − α ‾ t ϵ ) 公式 ( 8 ) σ 2 = ( 1 − α t ) ( 1 − α ‾ t − 1 ) 1 − α ‾ t = 1 − α ‾ t − 1 1 − α ‾ t β t 公式 ( 9 )

μ=1αt(xt1αt1α¯tϵ)(8)σ2=(1αt)(1α¯t1)1α¯t=1α¯t11α¯tβt(9)
μσ2=αt 1(xt1αt 1αtϵ)=1αt(1αt)(1αt1)=1αt1αt1βt公式(8)公式(9)
注意公式(9),作者实验发现, σ 2 = 1 − α ‾ t − 1 1 − α ‾ t β t \sigma^2 =\frac{1-\overline{\alpha}_{t-1}} {1-\overline{\alpha}_t} \beta_t σ2=1αt1αt1βt σ 2 = β t \sigma^2 =\beta_t σ2=βt 效果相似。这也很好理解,因为 1 − α ‾ t − 1 1 − α ‾ t \frac{1-\overline{\alpha}_{t-1}} {1-\overline{\alpha}_t} 1αt1αt1本身就近似等于1。

方差替换后效果相似原文
因此,方差就直接被替换。再次重新整理最终的均值和方差:
μ = 1 α t ( x t − β t 1 − α ‾ t ϵ ) σ 2 = β t

μ=1αt(xtβt1α¯tϵ)σ2=βt
μσ2=αt 1(xt1αt βtϵ)=βt
可得:

q ( x t − 1 ∣ x t ) ∼ N ( μ , σ 2 ) = N ( 1 α t ( x t − β t 1 − α ‾ t ϵ ) , β t ) q(x_{t-1}|x_t) \sim N(\mu, \sigma^2) = N(\frac{1}{\sqrt{\alpha_t}} (x_t - \frac{ \beta_t}{\sqrt{1-\overline\alpha_t}} \epsilon) , \beta_t) q(xt1xt)N(μ,σ2)=N(αt 1(xt1αt βtϵ),βt)

3 反向降噪

利用重参数技巧:
x t − 1 = μ t + σ z = 1 α t ( x t − β t 1 − α ‾ t ϵ ) + β t z

xt1=μt+σz=1αt(xtβt1α¯tϵ)+βtz
xt1=μt+σz=αt 1(xt1αt βtϵ)+βt z

与论文降噪采样算法完全一致。
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/430025
推荐阅读
相关标签
  

闽ICP备14008679号