赞
踩
homepage:https://video-diffusion.github.io/
paper:https://arxiv.org/pdf/2204.03458
参考:https://zhuanlan.zhihu.com/p/585009571
视频生成方面的扩散模型 论文Video Diffusion Models精读,笔者会多多更新AIGC相关知识!点个关注吧!!谢谢!AIGC-VDM,3D-UNET,unconditional model, text-conditioned model, video prediction model
q ( z t ∣ x ) = N ( z t ; α t x , σ t 2 I ) q(z_t|x) = N(z_t; \alpha_t x, \sigma_t^2 I) q(zt∣x)=N(zt;αtx,σt2I):在给定数据 x x x 的情况下,潜在变量 z t z_t zt 的分布。
q ( z t ∣ z s ) = N ( z t ; ( α t / α s ) z s , σ t ∣ s 2 I ) q(z_t|z_s) = N(z_t; (\alpha_t/\alpha_s)z_s, \sigma^2_{t|s} I) q(zt∣zs)=N(zt;(αt/αs)zs,σt∣s2I):在给定先前潜在变量 z s z_s zs 的情况下,潜在变量 z t z_t zt 的分布,其中 s < t s < t s<t。
0 ≤ s < t ≤ 1 , σ t ∣ s 2 = ( 1 − e λ t − λ s ) σ t 2 0\leq s<t\leq1, \sigma_{t|s}^{2}=(1-e^{\lambda_{t}-\lambda_{s}})\sigma_{t}^{2} 0≤s<t≤1,σt∣s2=(1−eλt−λs)σt2
σ t ∣ s 2 = ( 1 − e λ t − λ s ) σ t 2 \sigma_{t|s}^2 = (1 - e^{\lambda_t - \lambda_s})\sigma_t^2 σt∣s2=(1−eλt−λs)σt2
逆向过程:去噪操作的目标是将 z t ∼ q ( z t ∣ x ) \mathbf{z}_{t}\sim q(\mathbf{z}_{t}|\mathbf{x}) zt∼q(zt∣x) 转换为 x ^ θ ( z t , λ t ) \hat{x}_\theta(z_t, \lambda_t) x^θ(zt,λt),这里 x ^ θ \hat{x}_\theta x^θ 是去噪模型的输出,它是一个对 x x x 的估计(为了简化表示,我们通常省略对 λ t \lambda_t λt 的依赖)
加权均方误差损失(Weighted Mean Squared Error Loss):
ϵ \epsilon ϵ-预测参数化( ϵ \epsilon ϵ-Prediction Parameterization):使用 ϵ \epsilon ϵ-预测参数化来定义去噪模型 x ^ θ ( z t ) = ( z t − σ t ϵ θ ( z t ) ) / α t \hat{x}_\theta(z_t) = (z_t - \sigma_t \epsilon_\theta(z_t))/\alpha_t x^θ(zt)=(zt−σtϵθ(zt))/αt,其中 ϵ θ ( z t ) \epsilon_\theta(z_t) ϵθ(zt) 是模型预测的噪声残差。
余弦调度采样(Cosine Schedule Sampling):在 ϵ \epsilon ϵ 空间中,使用均方误差和根据余弦调度采样的时间 t t t 来训练 ϵ θ \epsilon_\theta ϵθ。余弦调度是一种常见的训练策略,有助于在训练过程中平衡不同时间步的贡献。
学习缩放得分估计(Learning a Scaled Score Estimate): 训练过程对应于学习一个缩放的得分估计 ϵ θ ( z t ) ≈ − σ t ∇ z t log p ( z t ) \epsilon_\theta(z_t) \approx -\sigma_t \nabla_{z_t} \log p(z_t) ϵθ(zt)≈−σt∇ztlogp(zt),这里 p ( z t ) p(z_t) p(zt) 是在给定 x x x 下 z t z_t zt 的真实分布密度。
v v v-预测参数化(v-Prediction Parameterization):对于某些模型,也使用 v v v-预测参数化来训练,这提供了另一种学习去噪模型的方法。
离散时间祖先采样器(discrete time ancestral sampler):
逆过程的数学表达:逆过程 q ( z s ∣ z t , x ) q(z_s|z_t, x) q(zs∣zt,x) = N ( z s ; μ ~ s ∣ t ( z t , x ) , σ ~ s ∣ t 2 I ) N(z_s; \tilde{\mu}_{s|t}(z_t, x), \tilde{\sigma}^2_{s|t}I) N(zs;μ~s∣t(zt,x),σ~s∣t2I),其中:
采样规则:
预测校正采样器(predictor-corrector sampler):预测校正采样器在条件生成中有用,它结合了祖先采样器步骤(4)和Langevin校正步骤:
z
s
←
z
s
−
1
2
δ
σ
s
ϵ
θ
(
z
s
)
+
δ
σ
s
ϵ
′
\mathbf{z}_s\leftarrow\mathbf{z}_s-\frac{1}{2}\delta\sigma_s\boldsymbol{\epsilon}_\theta(\mathbf{z}_s)+\sqrt{\delta}\sigma_s\boldsymbol{\epsilon}'
zs←zs−21δσsϵθ(zs)+δ
σsϵ′
条件生成设置和无分类器引导(Classifier-Free Guidance):
UNET(UNET知识回顾可以调转UNET)
在图像扩散模型中,通常使用U-Net架构,这是一种包含空间下采样和上采样通道的神经网络,并通过跳跃连接与下采样通道的激活相连。U-Net由2D卷积残差块组成,例如Wide ResNet风格,每个卷积块后面跟着一个空间注意力块。
条件信息的提供:条件信息(如类别标签 c c c 和对数信噪比 λ t {λ}_t λt以嵌入向量的形式提供给网络,并在添加到每个残差块之前,通过多个MLP层进行处理。
UNET图像模型架构的修改
时空分离注意力(factorized space-time attention)
论文的另一个主要创新是为无条件扩散模型提供了一种条件生成的方法。这种条件生成方法称为梯度条件法(gradient conditioning method)
它修改了扩散模型的采样过程,使用基于梯度优化的方式来改善去噪数据的条件损失(conditioning loss),从而可以让生成的视频通过自回归地方式扩展至更长的时间步和更高的分辨率。
由于梯度条件法中所使用的附加梯度项可以解释为一种额外的指导,而这种指导其实基于模型对条件数据的重建,将该方法称为重建引导采样(reconstruction-guided sampling),或简单地称为重建指导(reconstruction guidance)。
generate longer videos by extending our samples
优化替换法从而使其适用于视频生成
用于条件采样的去噪模型,reconstruction-guided sampling
x
~
θ
b
(
z
t
)
=
x
^
θ
b
(
z
t
)
−
w
r
α
t
2
∇
z
t
b
∥
x
a
−
x
^
θ
a
(
z
t
)
∥
2
2
.
\boxed{\tilde{\mathbf{x}}_\theta^b(\mathbf{z}_t)=\hat{\mathbf{x}}_\theta^b(\mathbf{z}_t)-\frac{w_r\alpha_t}{2}\nabla_{\mathbf{z}_t^b}\|\mathbf{x}^a-\hat{\mathbf{x}}_\theta^a(\mathbf{z}_t)\|_2^2 }.
x~θb(zt)=x^θb(zt)−2wrαt∇ztb∥xa−x^θa(zt)∥22.
空间插值(spatial interpolation)(or超分辨率super-resolution)的应用
x ~ θ ( z t ) \tilde{\mathbf{x}}_\theta(\mathbf{z}_t) x~θ(zt) : 这是调整后的去噪模型输出,用于生成条件样本
x ^ θ ( z t ) \hat{\mathbf{x}}_\theta(\mathbf{z}_t) x^θ(zt):这是原始去噪模型的输出,代表在给定潜在变量 z t z_t zt时,模型对数据 x x x的最佳估计
x a x^a xa:这是条件数据或参考数据,我们希望生成的样本与之保持一致。
x ^ θ a ( z t ) \hat{\mathbf{x}}_\theta^a\left(\mathbf{z}_t\right) x^θa(zt)是我们的模型从 z t z_t zt重建的低分辨率视频,通过使用可微分的下采样算法(如双线性插值)从模型的高分辨率输出获得
w r w_r wr:一个权重因子(weighting factor),用于控制梯度项在调整过程中的重要性
自回归扩展:还可以同时对低分辨率视频进行条件化,同时使用相同的重建引导方法在高分辨率下自回归扩展样本。[外链图片转存中…(img-sM1Hb8qI-1721821973272)]
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。