当前位置:   article > 正文

生成注释_DeepAI 2020 ICLR论文:最新生成模型无需人工注释即可更精确控制

ai论文 有注释

88114709b3cce71f42697c763fea398a.png

  新智元报道  

编辑:元子,王汐

【新智元导读】由于对生成过程缺乏控制或对所学表示的理解不足,因此它们的有用性常常受到限制。为了克服这些主要问题,最近的科研工作转向了生成模型潜在空间语义的研究。本文提出一种通过引入新方法来在生成模型的潜在空间中有方向性的寻找,从而进一步改进生成模型的潜在空间的可解释性,通过该方法,可以沿其移动以精确控制生成图像的特定属性,例如图像中对象的位置或比例。该方法不需要人工注释,特别适合搜索对生成的图像进行简单转换(例如平移,缩放或颜色变化)进行编码的方向。定性和定量地证明了该方法对于GAN和变分自动编码器的有效性。戳右边链接上 新智元小程序 了解更多!

随着最近生成模型成功地生成高分辨率真实感照片,越来越多的应用正在出现,如图像内绘画,数据集合成,和深度伪造。然而,对图像生成的控制常常局限于离散的因素,需要标签和编码器模型。此外,对于描述图像的连续变化因子,也缺少对该因子进行精确控制的方法。

该文章提出了一种在生成模型的潜在空间中寻找有意义的方向的方法,它可以用来精确地控制特定的连续变化的因素,作者对图像中物体的三种变化因素:垂直位置、水平位置和尺度的图像生成模型进行了测试。例如,为了描述一个场景,人们可能会列举看到的对象、它们的相对位置和关系以及它们的特征。因此,从变化因素的角度来解释生成模型的潜在空间是有希望的。

该方法的优点是不需要标记的数据集,也不需要带有编码器的模型。它可以适应其他因素的变化,如旋转,亮度变化,对比度,颜色或更复杂的转换,如局部变形。作者关注位置和尺度,因为这些是可以评估的数量,这使我们能够定量地度量我们的方法的有效性。作者从定性和定量两方面论证了这种方法可以用来精确地控制生成过程,并表明作者的方法能够揭示潜在空间结构。

以下是作者对论文的解读:

一个变化因素的潜在空间方向修改图像的属性比获得描述该属性的标签更容易。

例如,翻译一个图像要比确定一个物体在该图像中的位置容易。因此,如果我们可以确定一个变换后的图像的潜在编码,我们可以计算它与原图像潜码的差异,从而找到潜在空间的方向。

给定图像 8062ba0b209d7b92c6744e46a2d81af8.png,当没有编码器可用我们可以搜索一个近似潜在编码09fe5c14e5b703aa775dd9e70ad11b15.png来最小化3168585a353deed1b1559abdecaf51c8.pngc3cd02dee7a4be12d21c5079db94ef47.png的重建误差ba30411506779aa7b469502fb353f1b4.png

bea8c606ae27a470e7db67ff133fc32b.png

其中:

0338b92bc8ff034af81f061c68135364.png

d2808bc6ab16d3e73bc0adde1d1711f5.png为给定的图像变换。

为了求解,将d2808bc6ab16d3e73bc0adde1d1711f5.png拆解为多步骤小步幅的变换集cf8bf4dbfe81777339d5a5c852b644b9.png,则问题可转换为迭代求下式:

5426b6bf257f157a995d3ee95b620e16.png

下面根据算法1迭代求解得到轨迹集合D。

算法1:在潜在空间中创建一个轨迹数据集,对应于像素空间中的一个变换T。转换由参数δt参数化控制一定程度的转换。我们通常使用N = 10其中(δtn)(0≤n≤N)的间隔分布,分布区间[0,T]。

输入:轨迹数S, 生成器G,变换函数T,轨迹长度N,阈值θ

输出:轨迹数据集D

4057e43aa4237d675dc499f80506c0b5.png

得到此轨迹集,我们可以定义一个模型来描述如何生成轨迹变化的因素被编码在潜在空间中。

cde7e73b33a112fc2d60aec76a96a26b.png

其中: 080acc77a26b0cd86a5f67b3653a2cd9.png,为分段线型函数。

在算法1得到的轨迹D中,用梯度下降方法通过训练843c47f64f5e6d7c518f6b0c2d047128.png来估计b5e42495f37355f3b92e3ffbb19a4966.png来最小化2651c17bdd6097c6f669fdd1b1685ada.png167e02ff715e8c6389640fdf6bd170af.png的MSE来进行问题的建模。

数据集:我们对两个数据集进行了实验。第一个是dSprites,由737280张64×64的二进制图像组成。第二个数据集是ILSVRC,包含了1000张120万的自然图像不同的类别。

实现细节:我们所有的实验都是用TensorFlow 2.0实现的,相应的代码可以在github上找到。我们使用了BigGAN模型,其权重来自TensorFlow-Hub,可以方便地复制我们的结果。

BigGAN模型采用两个向量作为输入:一个潜在向量z∈R和一个热向量来调节模型,从一个类别生成图像。将潜在矢量z分解为6个部分,分别为不同尺度的输入。使用模型在前1e5的步骤中使用Adam优化器对dSprites进行训练,batch size为128,学习率5e−4。

365d934c0f9f6d80a226012ed5ee85c7.png

图1:用于训练的ILSVRC数据集的10个类别(顶部)和用于验证的其他10个类别(底部)的定量结果。蓝色表示测量到的变换参数的分布,红色表示分布相对于t的标准差。请注意,对于大尺度,该算法似乎失败了。然而,这种现象很可能是由于显著性模型的性能较差,所关注的对象几乎覆盖了整个图像(比例≈1.0)。(放大后效果最佳)

f3967a6492f720aa3b22e7730a584be8.png

图2:三种几何变换:水平和垂直平移和缩放的ILSVRC数据集的某些类别的定性结果

f3b1418e64b37757919ab31ff7b0e710.png

图3:水平位置、垂直位置、尺度潜码各部分的平方模

4cec0e210dc91c9936851f0624bd7a6a.png

图4:我们的评估过程的结果与四β-VAEβ= 1,5,10,20。注意结果的erf形状,这表明VAE正确地学习了形状位置的分布

我们的工作是在生成模型的潜在空间中寻找可解释的方向来控制它们的生成过程。我们区分了生成模型的两大类:一类是没有提供显式方法来获取图像潜表示的GAN-like模型,另一类是提供编码器来获取图像潜表示的自动编码器。从架构的角度来看,我们的方法不直接需要标签,我们证明了在不改变学习过程的情况下,在几个生成模型中找到这样的方向是可能的,并且对寻求的变异因素有一个先验的知识。

从技术角度来看,我们的训练过程的不同之处在于,我们首先生成一个有趣的轨迹数据集,然后在它们直接训练模型时训练我们的模型。我们使用了一个显著性模型,从而允许我们在更多类别上测量性能。此外,我们还提出了一个替代的重建误差来反转生成器。总之,我们的模型允许对生成过程进行更精确的控制,并且可以适应更多的情况。

2020,新智元继续与您一起探索?于你的AI新天地!AI技术干货,B站风格直播,就在新智元We站小程序!AI?你,新智元祝您2020新春快乐!??

32eec0b5f3c22b87940fbc5b6823f051.png

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/100182
推荐阅读
相关标签
  

闽ICP备14008679号