VQ-VAE_vq-vae csdn

作者：一键难忘520 | 2024-07-18 10:13:32

踩

vq-vae csdn

2.2.1. 出处 NIPS 2017《Neural Discrete Representation Learning》

作为一个自编码器，VQ-VAE的一个明显特征是它编码出的编码向量是离散的，换句话说，它最后得到的编码向量的每个元素都是一个整数，这也就是“Quantised”的含义，我们可以称之为“量子化”（跟量子力学的“量子”一样，都包含离散化的意思）。

2.2.2. VQ-VAE 的思想

VQ：向量量化 Vector Quantization

AE：自动编码器 Auto Eecoder

VAE：变分自动编码器 Variational Auto Encoder

自回归模型：

自回归模型留意到我们要生成的图像，实际上是离散的而不是连续的。以cifar10的图像为例，它是32×32大小的3通道图像，换言之它是一个32×32×3的矩阵，矩阵的每个元素是0～255的任意一个整数，这样一来，我们可以将它看成是一个长度为32×32×3=3072的句子，而词表的大小是256，从而用语言模型的方法，来逐像素地、递归地生成一张图片（传入前面的所有像素，来预测下一个像素），这就是所谓的自回归方法：p(x) = p(x1)p(x2|x1)…p(x3n2|x1,x2,…,x3n2−1) 其中p(x1),p(x2|x1),…,p(x3n2|x1,x2,…,x3n2−1)每一个都是256分类问题，只不过所依赖的条件有所不同。

自回归模型在图像生成上的研究拓展主要在以下两个方面：

设计如何排列递归的顺序（由于图像本身不是一个一维的句子）
如何加速采样的过程（传统的递归采样RNN，不能并行效率低下）

原始的自回归还有一个问题，就是割裂了类别之间的联系。虽然说因为每个像素是离散的，所以看成256分类问题也无妨，但事实上连续像素之间的差别是很小的，纯粹的分类问题捕捉到这种联系。更数学化地说，就是我们的目标函数交叉熵是−logpt，假如目标像素是100，如果我预测成99，因为类别不同了，那么pt就接近于0，−logpt就很大，从而带来一个很大的损失。但从视觉上来看，像素值是100还是99差别不大，不应该有这么大的损失。

解决问题：

为了解决自回归模型的问题，VQ-VAE 提出的解决办法是采用先降低维度，然后再对编码向量用 PixelCNN Conditional Image Generation with PixelCNN Decoders 建模。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/一键难忘520/article/detail/844957