赞
踩
报告主题:无需训练,将任何图像编辑技术带入视频编辑领域的新框架
报告日期:4月25日(周四)10:30-11:30
主题简介:
视频到视频编辑涉及编辑源视频并结合额外控制(如文本提示、主题或风格)生成一部与源视频和所提供控制对齐的新视频。传统方法被限制在特定的编辑类型上,限制了它们满足广泛用户需求的能力。在本文中,我们介绍了AnyV2V,一种新颖的无需训练的框架,旨在将视频编辑简化为两个主要步骤:(1)使用现成的图像编辑模型(例如 InstructPix2Pix、InstantID 等)修改第一帧,(2)利用现有的图像到视频生成模型(例如 I2VGen-XL)进行DDIM Inversion 和特征注入。在第一阶段,AnyV2V 可以插入任何现有的图像编辑工具,以支持广泛的视频编辑任务。除了传统的基于提示的编辑方法外,AnyV2V 还可以支持包括基于参考的风格转移、以主题为驱动的编辑和身份操纵在内的新颖视频编辑任务,这些任务是以前的方法无法实现的。在第二阶段,AnyV2V 可以插入任何现有的图像到视频模型,以执行DDIM Inversion 和中间特征注入,以保持与源视频的外观和运动一致性。在基于提示的编辑方面,我们展示了AnyV2V 在提示对齐上比之前最好的方法提高了35%,在人类偏好上提高了25%。在三项新颖任务上,我们展示AnyV2V 也取得了高成功率。我们相信AnyV2V 会因其无缝整合快速发展的图像编辑方法而持续发展。
报告嘉宾:
魏聪,滑铁卢大学计算机科学学院的一年级博士生,指导教授是陈文虎教授。我从多伦多大学获得了计算机科学硕士和学士学位,在那里我很幸运地得到了Florian Shkurti教授和David Duvenaud教授的指导。我的研究兴趣包括:Generative Models 设计更可控的图像和视频生成及编辑方法。Multimodal Learning将世界知识整合到多模态LLMs中,进行复杂的推理 + 检索增强生成。
扫描下方二维码
或点击「阅读原文」报名
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。