详细解读字节跳动视频生成模型StoryDiffusion：连环画创作和长视频生成_story diffusion

作者：寸_铁 | 2024-06-30 23:19:34

踩

story diffusion

Diffusion Models专栏文章汇总：入门与实战

前言：最近字节跳动提出了一项关于特征一致图像生成的工作StoryDiffusion，可以生成一系列特征主题相关的图像，还可以扩展成具有时间一致性的帧序列，从而组成长视频。这篇博客火速解读这篇最新的工作，包括论文和代码。

作者自己概括的三点贡献：

1、我们提出了一个无训练和热插拔注意模块，称为一致自注意力。它可以保持一系列生成的图像中字符的一致性，用于具有高文本可控性的讲故事。

2、我们提出了一种新的运动预测模块，该模块可以预测语义空间中两幅图像之间的转换，称为语义运动预测器。它可以生成比最近流行的图像条件反射方法(如SEINE和SparseCtrl)更容易放大到几分钟的更稳定的远程视频帧。

3、我们表明，我们的方法可以基于预定义的基于文本的故事生成长图像序列或视频，该故事具有建议的一致自注意力和语义运动预测器，其

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/寸_铁/article/detail/774328