DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion

作者：IT小白 | 2024-06-01 14:58:02

踩

appearence控制：Split CLIP-VAE Encoder，之前的方法将图片条件和noised latents结合到一起作为输入，但是这种方法是为了spatial的align，所以本文采取了另一种办法，也就是结合使用CLIP和VAE，最初和VAE embedding相关的权重设置为0，最后得到的embedding $c_I = A(c_{CLIP},c_{VAE})$ ，其中 $A$ 代表adapter；
pose控制：采用五个连续pose帧 $c_p=\{p_{i - 2},p_{i - 1},p_i,p_{i + 1},p_{i + 2}\}$ ，这些和noised latents concat到一起作为输入，输入修改了以接收额外的10个通道，初始化参数为0；
训练：根据上面的描述初始化模型参数之后，分为两个阶段进行训练，第一个阶段在完整数据集上面进行训练，第二个阶段在特定主题数据上进行微调；
Pose and Image Classifier-Free Guidance： $\epsilon_\theta(z_t,c_i,c_p) = \epsilon_\theta(z_t,\empty,\empty) + s_I(\epsilon_\theta(z_t,c_I,\empty)-\epsilon_\theta(z_t,\empty,\empty)) + s_p(\epsilon_\theta(z_t,c_I,c_p)-\epsilon_\theta(z_t,c_I,\empty))$ ， $s_I$ 保证和输入图片的appearence相符， $s_p$ 保证和pose的align；

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/IT小白/article/detail/658165