当前位置:   article > 正文

【论文简介】DragGAN:Interactive Point-based Manipulation on the Generative Image Manifold (6月即将开源)_draggan论文

draggan论文

在生成图像流形上的基于交互式点控制

论文以StyleGAN2架构为基础,实现了点点鼠标、拽一拽关键点就能P图的效果(虽然效果惊人,目前只能在特定数据集进行编辑)
官方项目地址:https://vcai.mpi-inf.mpg.de/projects/DragGAN/
科研媒体报道:让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop
在这里插入图片描述

DragGAN允许用户“拖动”任何gan生成的图像的内容。用户只需点击图像上的几个手柄点(红色)和目标点(蓝色),我们的方法将移动手柄点,精确地到达相应的目标点。
用户可以选择绘制一个灵活的区域(更亮的区域)的掩模,以保持图像的其余部分不变(fixed)。这种基于点的灵活操作可以控制许多空间属性,如姿态、形状、表达式和布局。
在这里插入图片描述

摘要

满足用户需求的视觉内容合成通常需要对生成对象的姿势(pose)、形状(shape)、表情(expression)和布局(layout)具备灵活且精确的可控性。现有方法通过手动标注的训练数据或先前的3D模型来实现对生成对抗网络(GANs)的可控性,但这往往缺乏灵活性、精确性和普适性。在本研究中,我们探索了一种强大但较少被探索的控制GANs的方式,即以用户交互的方式“拖动”图像中的任意点,精确地达到目标点,如图1所示。为了实现这一目标,我们提出了DragGAN,它包括两个主要组成部分:1)基于特征(feature)的运动监督(motion supervision),推动手柄点向目标位置移动;2)一种利用判别式(discriminative)生成器特征的新的点跟踪方法,用于定位手柄点的位置。通过DragGAN,任何人都可以通过精确控制像素的位置来改变图像,从而操纵动物、汽车、人类、风景等多种类别的姿势、形状、表情和布局。由于这些操作是在GAN学习到的生成图像流形(generative image manifold)上进行的,它们往往可以产生逼真的输出,即使在挑战性场景下,如产生遮挡内容的幻象和保持对象刚性的形状变形。定性和定量的比较结果显示DragGAN在图像操作和点跟踪任务上相比之前的方法具有优势。我们还展示了通过GAN反演对真实图像进行操作的示例。

关键词和短语:GANs、交互式图像操作(interactive image manipulation)、点跟踪(point tracking)。

3 方法

本工作旨在开发一种GANs交互式图像处理方法,用户只需要点击图像来定义一些对(手柄点,目标点),并驱动手柄点到达相应的目标点。我们的研究基于StyleGAN2体系结构。这里我们简要介绍这个体系结构的基础知识。

图像流形的建模
由于生成器

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/348214
推荐阅读
相关标签