赞
踩
论文:https://arxiv.org/pdf/2405.17933
代码:https://doubiiu.github.io/projects/ToonCrafter
给定首尾帧,生成逼真生动的动画,动画插值生成
近年来,使用深度学习的视频帧插值方法主要分为三类
现有方法的局限性:尽管这些方法在真人视频插值方面取得了巨大成功,但它们通常难以处理卡通中的大范围非线性运动和无纹理区域。
现有工作的改进:现有方法依赖于明确的对应关系识别和线性或直接运动的假设。它们未能模拟卡通中的复杂非线性运动或遮挡现象。
I2V合成的应用
现有模型的局限性
ToonCrafter的目标与核心思想
Our generative cartoon interpolation framework is built upon the open-sourced DynamiCrafter interpolation model, a SOTA i2V generative diffusion model.,and incorporates three key improvements for generative cartoon interpolation:
基于DynamiCrafter的图像到视频生成LDM:给定一个视频 x ∈ R L × 3 × H × W x \in \mathbb{R}^{L \times 3 \times H \times W} x∈RL×3×H×W,首先将其逐帧编码成潜在表示 z = E ( x ) z = E(x) z=E(x),其中 z ∈ R L × C × h × w z \in \mathbb{R}^{L \times C \times h \times w} z∈RL×C×h×w。
接下来,在潜在空间中执行前向扩散过程 z t = p ( z 0 , t ) z_t = p(z_0, t) zt=p(z0,t)和后向去噪过程 z t = p θ ( z t − 1 , c , t ) z_t = p_\theta(z_{t-1}, c, t) zt=pθ(zt−1,c,t)。 这里的 c c c代表去噪条件,如文本 c t x t c_{txt} ctxt和图像提示 c i m g c_{img} cimg。
根据DynamiCrafter的描述,插值应用是通过提供起始帧 x 1 x_1 x1和结束帧 x L x_L xL,同时将中间帧留空以供图像提示 c i m g c_{img} cimg使用来实现的。
优化目标
一旦去噪过程完成,潜在表示 z z z 通过解码函数 D ( z ) D(z) D(z) 被转换回视频空间,生成最终的视频 x ^ \hat{x} x^。
Some potential issues include the unintentional synthesis of non-cartoon content, as well as the model’s inability to accurately comprehend animation content, leading to the generation of inappropriate motion【一些潜在的问题包括非卡通内容的无意合成,以及模型无法准确理解动画内容,导致生成不适当的运动】
We propose a frame-independent sketch encoder S S S that enables users to control the generated motion using sparse sketch guidance.
稀疏输入支持:草图编码器模块S支持稀疏输入,用户不需要为目标帧提供所有草图图像。
帧独立适配:S被设计为帧独立的适配器,能够基于提供的草图独立调整每一帧的中间特征。
处理策略:草图编码器使用与ControlNet相似的策略处理输入的草图,无论草图是否存在,S都能接收输入并调整特征。
we design S S S as a frame-wise adapter that learns to adjust the intermediate features of each frame independently based on the provided sketch【 S S S去学习根据提供的草图独立调整每个帧的中间特征】
training:We freeze the denoising network
ϵ
θ
ϵ_θ
ϵθ and optimize the sketch encoder
S
S
S. S uses a ControlNet-like architecture, initialized from the pre-trained StableDiffusion v2.1. The training objective is:【冻结去噪网络
ε
θ
ε_θ
εθ,优化草图编码器
S
S
S】
min
θ
E
E
(
x
)
,
s
,
t
,
ϵ
∼
N
(
0
,
I
)
[
∥
ϵ
−
ϵ
θ
S
(
z
t
;
c
i
m
g
,
c
t
x
t
,
s
′
,
t
,
f
p
s
)
∥
2
2
]
\min_{\theta}\mathbb{E}_{\mathcal{E}(\mathbf{x}),\mathbf{s},t,\epsilon\sim\mathcal{N}(\mathbf{0},\mathbf{I})}\left[\|\epsilon-\epsilon_{\theta}^{\mathcal{S}}\left(\mathbf{z}_{t};\mathbf{c}_{\mathrm{img}},\mathbf{c}_{\mathrm{txt}},\mathbf{s}^{\prime},t,fps\right)\|_{2}^{2}\right]
θminEE(x),s,t,ϵ∼N(0,I)[∥ϵ−ϵθS(zt;cimg,ctxt,s′,t,fps)∥22]
用户草图输入的典型模式
实现细节:
定量比较:
定性比较:
用户研究:
消融研究:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。