活动报名｜无需训练，将任何图像编辑技术带入视频编辑的新框架

作者：AllinToyou | 2024-05-06 13:52:59

踩

报告主题：无需训练，将任何图像编辑技术带入视频编辑领域的新框架

报告日期：4月25日（周四）10:30-11:30

主题简介：

视频到视频编辑涉及编辑源视频并结合额外控制（如文本提示、主题或风格）生成一部与源视频和所提供控制对齐的新视频。传统方法被限制在特定的编辑类型上，限制了它们满足广泛用户需求的能力。在本文中，我们介绍了AnyV2V，一种新颖的无需训练的框架，旨在将视频编辑简化为两个主要步骤：（1）使用现成的图像编辑模型（例如 InstructPix2Pix、InstantID 等）修改第一帧，（2）利用现有的图像到视频生成模型（例如 I2VGen-XL）进行DDIM Inversion 和特征注入。在第一阶段，AnyV2V 可以插入任何现有的图像编辑工具，以支持广泛的视频编辑任务。除了传统的基于提示的编辑方法外，AnyV2V 还可以支持包括基于参考的风格转移、以主题为驱动的编辑和身份操纵在内的新颖视频编辑任务，这些任务是以前的方法无法实现的。在第二阶段，AnyV2V 可以插入任何现有的图像到视频模型，以执行DDIM Inversion 和中间特征注入，以保持与源视频的外观和运动一致性。在基于提示的编辑方面，我们展示了AnyV2V 在提示对齐上比之前最好的方法提高了35％，在人类偏好上提高了25％。在三项新颖任务上，我们展示AnyV2V 也取得了高成功率。我们相信AnyV2V 会因其无缝整合快速发展的图像编辑方法而持续发展。

报告嘉宾：

魏聪，滑铁卢大学计算机科学学院的一年级博士生，指导教授是陈文虎教授。我从多伦多大学获得了计算机科学硕士和学士学位，在那里我很幸运地得到了Florian Shkurti教授和David Duvenaud教授的指导。我的研究兴趣包括：Generative Models 设计更可控的图像和视频生成及编辑方法。Multimodal Learning将世界知识整合到多模态LLMs中，进行复杂的推理 + 检索增强生成。

扫描下方二维码

或点击「阅读原文」报名

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/AllinToyou/article/detail/544529