赞
踩
Generating Diverse High-Fidelity Images with VQ-VAE-2
摘要
本文主要研究VQ-VAE在大尺度图像生成器上的应用,我们改进了自回归的先验来生成比以前更加优秀的图片,本文使用的是简单的编码和解码器,他们的速度比较快,VQ-VAE需要一个在潜在空间自回归的模型,他的速度要快于像素空间回归,
多层次结构的VQ-VAE能够产生强大的先验,这样会使生成图片的质量在多脸图像中要优于其他的,并且不会产生模型塌陷,多样性缺失的问题。
文中使用,有损压缩的方式,将生成模型从非必要的信息中解放出来,首先将图片压缩到一个离散的编码空间中,这样的话使得信息的表示少了30倍,并且能够使得解码器从这个空间中重新构成图片,压缩图片模型可以使用PixelSnail的算法,使用的是带有Attention的pixelCNN实现的。经过采样,图像的重构依然能够保持很好的质量。同时这类模型的训练和采样的速度也是基于像素模型的30倍。本文中的改进能够很好的保留原始VQ-VAE快速简单的特点。
VQ-VAE
其中sg表示终止梯度运算的算子
其中ni 表示E(X) mini_batch中使用ei标准码的数量,gamma是参数在0,1之间,
算法
文中的方法是两级方法,首先训练一个VQ-VAE来编辑头像到一个潜在空间,人后训练一个,然后在根据先验的潜在空间,训练一个PixelCNN
训VQ-VAE编码器解码器
生成图像
从理解上来看,训练分成两步,第一步训练VQ-VAE,第二部训练先验。
训练VQ-VAE包含训练两个编码器,将两个编码器的编码结果共同输入生成器用来生成图像。
具体算法
根据latent code学习先验
这种方式能够减少边缘部位与先验的差别。从训练好的先验分布中采样,有点类似于解码器在训练中探索一样,能够得出更加好的输出。训练先验的目的就是训练出这个分布。从而实现类似于图片的损失较小的压缩, 真实在的熵与训练熵的差别越小,那么解码器生成的图片就越真实。
在VQ-VAE框架中,先验是由PixelCNN产生的,在训练的第二步中,top latent map的先验代表着图像的整体结构,本文将残差项应用于它,这样的话就能够捕捉到,与整体相互背离的局部特性,但是在bottom latent map中,使用残差项并不能起到很好的作用,但是我们发现使用来自上曾分布的条件栈,会有很好的表现。
在训练的时候,训练top-level的先验,加入了attention机制,但是在训练bottom-level的时候没有用到这个机制。
总体结构
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。