当前位置:   article > 正文

【CVPR 2023】Diffusion Models高分辨率长视频生成 Align your Latents_align your latents: high-resolution video synthesi

align your latents: high-resolution video synthesis with latent diffusion mo

Diffusion Models专栏文章汇总:入门与实战

前言:CVPR 2023年的工作《Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models》实现了高帧率高分辨率长视频生成,并在保持时间一致性上做了很多工作。这篇博客详细解读一下背后的原理,并总结一下值得借鉴的地方。

目录

贡献概述

方法详解

视频感知时间骨干结构

时间自编码器微调

长视频生成:masking-conditioning机制

高帧率视频生成

论文和代码

个人感悟


贡献概述

作者的方法可以归纳成三点:

  • 作者通过在潜在空间扩散模型中引入时间维度,并仅对这些时间层在编码的图像序列(即视频)上进行训练,同时固定预训练的空间层,将LDM的图像生成器转变为视频生成器。
  • 同时微调潜在扩散模型的解码器,以在像素空间中实现时间上的一致性。
  • 为了进一步提高空间分辨率,对像素空间和潜在扩散模型的上采样器进行时间对齐,并将其转化为在图像超分辨率中广泛使用的具有时间一致性的视频超分辨率模型。

作者自

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/790232
推荐阅读
相关标签
  

闽ICP备14008679号