【论文简介】DragGAN:Interactive Point-based Manipulation on the Generative Image Manifold （6月即将开源）_draggan论文

作者：凡人多烦事01 | 2024-04-01 09:56:25

踩

draggan论文

在生成图像流形上的基于交互式点控制

论文以StyleGAN2架构为基础，实现了点点鼠标、拽一拽关键点就能P图的效果（虽然效果惊人，目前只能在特定数据集进行编辑）
官方项目地址：https://vcai.mpi-inf.mpg.de/projects/DragGAN/
科研媒体报道：让GAN再次伟大！拽一拽关键点就能让狮子张嘴&大象转身，汤晓鸥弟子的DragGAN爆火，网友：R.I.P. Photoshop
在这里插入图片描述

DragGAN允许用户“拖动”任何gan生成的图像的内容。用户只需点击图像上的几个手柄点（红色）和目标点（蓝色），我们的方法将移动手柄点，精确地到达相应的目标点。
用户可以选择绘制一个灵活的区域（更亮的区域）的掩模，以保持图像的其余部分不变（fixed）。这种基于点的灵活操作可以控制许多空间属性，如姿态、形状、表达式和布局。
在这里插入图片描述

摘要

满足用户需求的视觉内容合成通常需要对生成对象的姿势（pose）、形状（shape）、表情（expression）和布局（layout）具备灵活且精确的可控性。现有方法通过手动标注的训练数据或先前的3D模型来实现对生成对抗网络（GANs）的可控性，但这往往缺乏灵活性、精确性和普适性。在本研究中，我们探索了一种强大但较少被探索的控制GANs的方式，即以用户交互的方式“拖动”图像中的任意点，精确地达到目标点，如图1所示。为了实现这一目标，我们提出了DragGAN，它包括两个主要组成部分：1）基于特征（feature）的运动监督（motion supervision），推动手柄点向目标位置移动；2）一种利用判别式（discriminative）生成器特征的新的点跟踪方法，用于定位手柄点的位置。通过DragGAN，任何人都可以通过精确控制像素的位置来改变图像，从而操纵动物、汽车、人类、风景等多种类别的姿势、形状、表情和布局。由于这些操作是在GAN学习到的生成图像流形（generative image manifold）上进行的，它们往往可以产生逼真的输出，即使在挑战性场景下，如产生遮挡内容的幻象和保持对象刚性的形状变形。定性和定量的比较结果显示DragGAN在图像操作和点跟踪任务上相比之前的方法具有优势。我们还展示了通过GAN反演对真实图像进行操作的示例。

关键词和短语：GANs、交互式图像操作（interactive image manipulation）、点跟踪（point tracking）。

3 方法

本工作旨在开发一种GANs交互式图像处理方法，用户只需要点击图像来定义一些对（手柄点，目标点），并驱动手柄点到达相应的目标点。我们的研究基于StyleGAN2体系结构。这里我们简要介绍这个体系结构的基础知识。

图像流形的建模
由于生成器

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/凡人多烦事01/article/detail/348214