赞
踩
作为一个自编码器,VQ-VAE的一个明显特征是它编码出的编码向量是离散的,换句话说,它最后得到的编码向量的每个元素都是一个整数,这也就是“Quantised”的含义,我们可以称之为“量子化”(跟量子力学的“量子”一样,都包含离散化的意思)。
强烈推荐参考文章:
VQ-VAE的简明介绍:量子化自编码器 - 科学空间|Scientific Spaces
VQ:向量量化 Vector Quantization
AE:自动编码器 Auto Eecoder
VAE:变分自动编码器 Variational Auto Encoder
自回归模型留意到我们要生成的图像,实际上是离散的而不是连续的。以cifar10的图像为例,它是32×32大小的3通道图像,换言之它是一个32×32×3的矩阵,矩阵的每个元素是0~255的任意一个整数,这样一来,我们可以将它看成是一个长度为32×32×3=3072的句子,而词表的大小是256,从而用语言模型的方法,来逐像素地、递归地生成一张图片(传入前面的所有像素,来预测下一个像素),这就是所谓的自回归方法:p(x) = p(x1)p(x2|x1)…p(x3n2|x1,x2,…,x3n2−1) 其中p(x1),p(x2|x1),…,p(x3n2|x1,x2,…,x3n2−1)每一个都是256分类问题,只不过所依赖的条件有所不同。
自回归模型在图像生成上的研究拓展主要在以下两个方面:
原始的自回归还有一个问题,就是割裂了类别之间的联系。虽然说因为每个像素是离散的,所以看成256分类问题也无妨,但事实上连续像素之间的差别是很小的,纯粹的分类问题捕捉到这种联系。更数学化地说,就是我们的目标函数交叉熵是−logpt,假如目标像素是100,如果我预测成99,因为类别不同了,那么pt就接近于0,−logpt就很大,从而带来一个很大的损失。但从视觉上来看,像素值是100还是99差别不大,不应该有这么大的损失。
为了解决自回归模型的问题,VQ-VAE 提出的解决办法是采用先降低维度,然后再对编码向量用 PixelCNN Conditional Image Generation with PixelCNN Decoders 建模。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。