T2I 模块生成描述场景的 1024×1024 图像。随后，I2V 模块对该静态图像进行动画处理，生成 600×600×32 帧的序列，通过潜在噪声先验确保与初始帧的连续性。V2V 模块将这些帧增强至 1048×1048 分辨率，同时细化视频内容。最后，插值模块将序列扩展至 94 帧，得到分辨率为 1048×1048 的视频，该视频既具有高美感又具有时间平滑性。

在T2I模块， MagicVideo-V2兼容不同的T2I模型。具体来说，MagicVideo-V2使用内部开发的基于扩散的的T2I模型可输出高美感图像。

在I2V模块，MagicVideo-V2利用T2I模块的参考图来增强该模块。主要体现在三个方面：

1. 使用外观编码器提取参考图像特征，并通过交叉注意力机制注入模型；

2. 采用潜在噪声先验策略来提供起始噪声潜码中的布局条件。具体的，这些帧是从标准高斯噪声初始化的，其平均值已从零转向参考图像潜在值；

3. 使用ControlNet模块直接从图像中提取RGB信息参考图像并将其应用到所有帧。

在V2V模块，V2V模块与I2V模块具有类似的设计。它与 I2V 共享相同的主干和空间层模块。它的运动模块在高分辨率的视频子集上进行一个单独的微调来实现高分辨率视频生成。

在VFI模块 ,VFI模块使用内部训练的基于GAN的VFI 模型。它采用与 VQ-GAN 配对的增强型可变形可分离卷积 (EDSC) 头。这点没什么好说的，也是用内部的方案。

三. 文本生成视频相关结果

四. 与其他方法对比结果

五. 个人感悟

字节的这个工作有点东西，没有辜负美感这个词，将平平无奇的一阶段文生图扩展成多阶段以此来增强最后的生成结果，工作量还是挺大的。

另外文章中多处提到用了字节内部的东西，看来字节还是憋了不少好东西的。对于字节内部的数据，我想说的是，字节手握抖音和tiktok两大高质量数据源，可以炼出不少好东西，比如上次的MagicAnimate，还有这次高质量图片生成以及利用高分辨率视频微调。这些优势也是个人或是一些公司不具备的。AIGC依旧是数据为王的时代！

关注公众号【AI杰克王】

1. 回复“资源”，获取AIGC 博客教程，顶级大学PPT知识干货；

2. 回复“星球”，获取AIGC 免费知识星球入口，有前沿资深算法工程师分享讨论。

欢迎加入AI杰克王的免费知识星球，海量干货等着你，一起探讨学习AIGC!

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/AllinToyou/article/detail/93247