凡人多烦事01

这个屌丝很懒，什么也没留下！

热门标签

生成模型之VAE模型及pytorch实现_虚拟样本生成

作者：凡人多烦事01 | 2024-05-04 05:00:29

踩

虚拟样本生成

VAE模型及pytorch实现

VAE（变分自编码器）是一种生成模型，结合了自编码器和概率图模型的思想。它通过学习数据的潜在分布，可以生成新的数据样本。VAE通过将输入数据映射到潜在空间中的分布，并在训练过程中最大化数据与潜在变量之间的条件概率来实现。其关键思想在于编码器将输入数据编码成潜在分布的参数，解码器则从这个分布中采样生成新的数据。这种生成方式不仅能够生成新的数据，还能够在潜在空间中进行插值和操作，提供了强大的特征学习和数据生成能力。

AE论文：Auto-Encoding Variational Bayes

VAE论文：Semi-supervised Learning with Deep Generative Models

2023-11-28_16-06-34

VAE模型推导部分

2023-11-28_10-05-53

假设 $P (z)$ 是一个正态分布， $\sim N(\mu(z),\sigma(z))$ 是x从z分布中进行采样得到的。
$P(x)=\int_zP(z)P(x|z)dz$
为了最大化 $P (x)$ ，我们采用极大似然估计
$L=\sum_{x}logP(x)\quad\mathrm{Maximizing~the~likelihood~of~the~observed~x}$
对 $l o g P (x)$ 进一步进行变形

\begin{aligned} l o g P (x) = & \int_{z} q (z | x) l o g P (x) d z q (z | x) c a n b e a n y d i s t r i b u t i o n \\ = \int_{z} q (z | x) l o g (\frac{P (z, x)}{P (z | x)}) d z = \int_{z} q (z | x) l o g (\frac{P (z, x)}{q (z | x)} \frac{q (z | x)}{P (z | x)}) d z \\ = \int_{z} q (z | x) l o g (\frac{P (z, x)}{q (z | x)}) d z + \int_{z} q (z | x) l o g (\frac{q (z | x)}{P (z | x)}) d z \\ \geq \int_{z} q (z | x) l o g (\frac{P (x | z) P (z)}{q (z | x)}) d z \end{aligned}

$\begin{aligned} logP(x)=&\int_{z}q(z|x)logP(x)dz\quad\mathrm{q(z|x)~can~be~any~distribution} \\ &=\int_{z}q(z|x)log\left(\frac{P(z,x)}{P(z|x)}\right)dz=\int_{z}q(z|x)log\left(\frac{P(z,x)}{q(z|x)}\frac{q(z|x)}{P(z|x)}\right)dz \\ &=\int_{z}q(z|x)log\left(\frac{P(z,x)}{q(z|x)}\right)dz+\int_{z}q(z|x)log\left(\frac{q(z|x)}{P(z|x)}\right)dz \\ &\geq \int_{z}q(z|x)log\left(\frac{P(x|z)P(z)}{q(z|x)}\right)dz \end{aligned}$

l o g P (x) = \int_{z} q (z ∣ x) l o g P (x) d z q (z∣x) can be any distribution = \int_{z} q (z ∣ x) l o g (\frac{P ( z , x )}{P ( z ∣ x )}) d z = \int_{z} q (z ∣ x) l o g (\frac{P ( z , x )}{q ( z ∣ x )} \frac{q ( z ∣ x )}{P ( z ∣ x )}) d z = \int_{z} q (z ∣ x) l o g (\frac{P ( z , x )}{q ( z ∣ x )}) d z + \int_{z} q (z ∣ x) l o g (\frac{q ( z ∣ x )}{P ( z ∣ x )}) d z \geq \int_{z} q (z ∣ x) l o g (\frac{P ( x ∣ z ) P ( z )}{q ( z ∣ x )}) d z

因为

KL\left(q(z|x)||P(z|x)\right)=\int_{z}q(z|x)log\left(\frac{q(z|x)}{P(z|x)}\right)dz

是大于0的数，所以，上述式子大于等于前面那一项。

对于给定的 $P (x ∣ z)$ ,让KL尽可能小，就是让 $L_b$ 最大。同时，当 $K L$ 尽可能小，也就是说明 $q (z ∣ x)$ 和 $p (z ∣ x)$ 这两个分布的相似度越高。

2023-11-28_10-09-17

接下来我们就对 $L_b$ 进行最大化变形处理，变形后左侧为，右侧为

\begin{aligned} L_{b} & = \int_{z} q (z | x) l o g (\frac{P (z, x)}{q (z | x)}) d z = \int_{z} q (z | x) l o g (\frac{P (x | z) P (z)}{q (z | x)}) d z \\ = \int_{z} q (z | x) \log (\frac{P (z)}{q (z | x)}) d z + \int_{z} q (z | x) l o g P (x | z) d z \\ = K L (q (z | x) | | P (z)) + E_{q (z | x)} [l o g P (x | z)] \end{aligned}

$\begin{aligned} L_b&=\int_zq(z|x)log\left(\frac{P(z,x)}{q(z|x)}\right)dz=\int_zq(z|x)log\left(\frac{P(x|z)P(z)}{q(z|x)}\right)dz\\ &=\int_z q(z|x)\log (\frac{P(z)}{q(z|x)})dz+\int_zq(z|x)logP(x|z)dz\\ &=KL(q(z|x)||P(z))+E_{q(z|x)}[logP(x|z)] \end{aligned}$

L_{b} = \int_{z} q (z ∣ x) l o g (\frac{P ( z , x )}{q ( z ∣ x )}) d z = \int_{z} q (z ∣ x) l o g (\frac{P ( x ∣ z ) P ( z )}{q ( z ∣ x )}) d z = \int_{z} q (z ∣ x) lo g (\frac{P ( z )}{q ( z ∣ x )}) d z + \int_{z} q (z ∣ x) l o g P (x ∣ z) d z = K L (q (z ∣ x) ∣∣ P (z)) + E_{q (z ∣ x)} [l o g P (x ∣ z)]

如下所示，我们需要做的就是最小化 $K L (q (z ∣ x) ∣∣ P (z))$ 并最大化 $E_{q(z|x)}[logP(x|z)]$ 。对于最小化KL，我们可以理解为输入一个 $x$ ,然后通过神经网络调参输出 $\mu_(x),\sigma(x)$ ，也就是让这个数值尽可能和 $P (z)$ 这个分布接近。这部分相当于Encoder部分。

在Encoder部分结束后，对于第2项，从已知的 $z$ ，也就是数据的隐式特征表示，去采样出 $x$ ，相当于模型的Decoder部分，输出一个均值使之尽可能接近原始的 $x$ ，因为对于这种条件概率，均值最大的时候就是 $x$

2023-11-28_10-17-39

最小化KL散度推导

为了最小化 $q (z ∣ x)$ 和 $P (z)$ 的KL散度，首先，我们先对正态分布的KL散度计算进行推导。参考链接高斯分布的KL散度-CSDN博客

\begin{aligned} K L (N (μ_{1}, σ_{1}^{2}) ‖ N (μ_{2}, σ_{2}^{2})) & = \int_{x} \frac{1}{\sqrt{2 π} σ_{1}} e^{- \frac{{(x - μ_{1})}^{2}}{2 σ_{1}^{2}}} \log \frac{\frac{1}{\sqrt{2 π} σ_{1}} e^{- \frac{{(x - μ_{1})}^{2}}{2 σ_{1}^{2}}}}{\frac{1}{\sqrt{2 π} σ_{2}} e^{- \frac{{(x - μ_{2})}^{2}}{2 σ_{2}^{2}}}} d x \\ = \int_{x} \frac{1}{\sqrt{2 π} σ_{1}} e^{- \frac{{(x - μ_{1})}^{2}}{2 σ_{1}^{2}}} [\log \frac{σ_{2}}{σ_{1}} - \frac{{(x - μ_{1})}^{2}}{2 σ_{1}^{2}} + \frac{{(x - μ_{2})}^{2}}{2 σ_{2}^{2}}] d x \end{aligned}

$\begin{aligned} \mathrm{KL}\left(\mathcal{N}\left(\mu_{1}, \sigma_{1}^{2}\right) \| \mathcal{N}\left(\mu_{2}, \sigma_{2}^{2}\right)\right) & =\int_{\mathrm{x}} \frac{1}{\sqrt{2 \pi} \sigma_{1}} \mathrm{e}^{-\frac{\left(x-\mu_{1}\right)^{2}}{2 \sigma_{1}^{2}}} \log \frac{\frac{1}{\sqrt{2 \pi} \sigma_{1}} e^{-\frac{\left(x-\mu_{1}\right)^{2}}{2 \sigma_{1}^{2}}}}{\frac{1}{\sqrt{2 \pi} \sigma_{2}} e^{-\frac{\left(x-\mu_{2}\right)^{2}}{2 \sigma_{2}^{2}}}} d x \\ & =\int_{x} \frac{1}{\sqrt{2 \pi} \sigma_{1}} e^{-\frac{\left(x-\mu_{1}\right)^{2}}{2 \sigma_{1}^{2}}}\left[\log \frac{\sigma_{2}}{\sigma_{1}}-\frac{\left(x-\mu_{1}\right)^{2}}{2 \sigma_{1}^{2}}+\frac{\left(x-\mu_{2}\right)^{2}}{2 \sigma_{2}^{2}}\right] d x \end{aligned}$ \\

KL (N (μ_{1}, σ_{1}^{2}) ∥ N (μ_{2}, σ_{2}^{2})) = \int_{x} \frac{1}{2 π σ _{1}} e^{- \frac{( x - μ _{1} ) ^{2}}{2 σ _{1}^{2}}} lo g \frac{\frac{1}{2 π σ _{1}} e ^{- \frac{( x - μ _{1} ) ^{2}}{2 σ _{1}^{2}}}}{\frac{1}{2 π σ _{2}} e ^{- \frac{( x - μ _{2} ) ^{2}}{2 σ _{2}^{2}}}} d x = \int_{x} \frac{1}{2 π σ _{1}} e^{- \frac{( x - μ _{1} ) ^{2}}{2 σ _{1}^{2}}} [lo g \frac{σ _{2}}{σ _{1}} - \frac{( x - μ _{1} ) ^{2}}{2 σ _{1}^{2}} + \frac{( x - μ _{2} ) ^{2}}{2 σ _{2}^{2}}] d x

对于第1项，由于 $\sigma_1,\sigma_2$ 与x无关，则可以直接提取到积分外面，该积分即为正态分布的全概率公式，也就是为1
$\log \frac{\sigma_{2}}{\sigma_{1}} \int_{\mathrm{x}} \frac{1}{\sqrt{2 \pi} \sigma_{1}} \mathrm{e}^{-\frac{\left(x-\mu_{1}\right)^{2}}{2 \sigma_{1}^{2}}} \mathrm{dx}=\log \frac{\sigma_{2}}{\sigma_{1}}\\$
对于第2项，则是由方差定义式 $D(x)=\int_x(x-\mu)^2f(x)dx$ ,可知这个积分的结果为 $\sigma_1^2$
$-\frac{1}{2 \sigma_{1}^{2}} \int_{\mathrm{x}}\left(\mathrm{x}-\mu_{1}\right)^{2} \frac{1}{\sqrt{2 \pi} \sigma_{1}} \mathrm{e}^{-\frac{\left(\mathrm{x}-\mu_{1}\right)^{2}}{2 \sigma_{1}^{2}}} \mathrm{dx}=-\frac{1}{2 \sigma_{1}^{2}} \sigma_{1}^{2}=-\frac{1}{2}$
对于第3项，首先将其展开，对于 $x^2$ ,由均方值公式， $E(x^2)=D(x)+E(x)^2$ ,后面两项则分别是通过均值公式以及全概率公式进行计算。

$\begin{aligned} \frac{1}{2 σ_{2}^{2}} \int_{x} {(x - μ_{2})}^{2} \frac{1}{\sqrt{2 π} σ_{1}} e^{- \frac{{(x - μ_{1})}^{2}}{2 σ_{1}^{2}}} d x & = \frac{1}{2 σ_{2}^{2}} \int_{x} (x^{2} - 2 μ_{2} x + μ_{2}^{2}) \frac{1}{\sqrt{2 π} σ_{1}} e^{- \frac{{(x - μ_{1})}^{2}}{2 σ_{1}^{2}}} d x \\ = \frac{σ_{1}^{2} + μ_{1}^{2} - 2 μ_{1} μ_{2} + μ_{2}^{2}}{2 σ_{2}^{2}} = \frac{σ_{1}^{2} + {(μ_{1} - μ_{2})}^{2}}{2 σ_{2}^{2}} \end{aligned}$ $\begin{aligned} \frac{1}{2 \sigma_{2}^{2}} \int_{\mathrm{x}}\left(\mathrm{x}-\mu_{2}\right)^{2} \frac{1}{\sqrt{2 \pi} \sigma_{1}} \mathrm{e}^{-\frac{\left(\mathrm{x}-\mu_{1}\right)^{2}}{2 \sigma_{1}^{2}}} \mathrm{dx} & =\frac{1}{2 \sigma_{2}^{2}} \int_{\mathrm{x}}\left(\mathrm{x}^{2}-2 \mu_{2} \mathrm{x}+\mu_{2}^{2}\right) \frac{1}{\sqrt{2 \pi} \sigma_{1}} \mathrm{e}^{-\frac{\left(\mathrm{x}-\mu_{1}\right)^{2}}{2 \sigma_{1}^{2}}} \mathrm{dx} \\ & =\frac{\sigma_{1}^{2}+\mu_{1}^{2}-2 \mu_{1} \mu_{2}+\mu_{2}^{2}}{2 \sigma_{2}^{2}}=\frac{\sigma_{1}^{2}+\left(\mu_{1}-\mu_{2}\right)^{2}}{2 \sigma_{2}^{2}}\\ \end{aligned}$ $\frac{1}{2 σ _{2}^{2}} \int_{x} (x - μ_{2})^{2} \frac{1}{2 π σ _{1}} e^{- \frac{( x - μ _{1} ) ^{2}}{2 σ _{1}^{2}}} dx = \frac{1}{2 σ _{2}^{2}} \int_{x} (x^{2} - 2 μ_{2} x + μ_{2}^{2}) \frac{1}{2 π σ _{1}} e^{- \frac{( x - μ _{1} ) ^{2}}{2 σ _{1}^{2}}} dx = \frac{σ _{1}^{2} + μ _{1}^{2} - 2 μ _{1} μ _{2} + μ _{2}^{2}}{2 σ _{2}^{2}} = \frac{σ _{1}^{2} + ( μ _{1} - μ _{2} ) ^{2}}{2 σ _{2}^{2}}$

对上述式子进行汇总：

\begin{aligned} K L (N (μ_{1}, σ_{1}^{2}) ‖ N (μ_{2}, σ_{2}^{2})) & = \log \frac{σ_{2}}{σ_{1}} - \frac{1}{2} + \frac{σ_{1}^{2} + (μ_{1} - μ_{2})^{2}}{2 σ_{2}^{2}} \\ = \frac{1}{2} (σ_{1}^{2} + μ_{1}^{2} - \log^{σ_{1}^{2}} - 1) \end{aligned}

$\begin{aligned} \mathrm{KL}\left(\mathcal{N}\left(\mu_{1}, \sigma_{1}^{2}\right) \| \mathcal{N}\left(\mu_{2}, \sigma_{2}^{2}\right)\right) &=\log{\frac{\sigma_2}{\sigma_1}-\frac{1}{2}+\frac{\sigma_1^2+(\mu_1-\mu_2)^2}{2\sigma_2^2}} \\&=\frac{1}{2}(\sigma_1^2+\mu_1^2-\log^{\sigma_1^2}-1) \end{aligned}$

KL (N (μ_{1}, σ_{1}^{2}) ∥ N (μ_{2}, σ_{2}^{2})) = lo g \frac{σ _{2}}{σ _{1}} - \frac{1}{2} + \frac{σ _{1}^{2} + ( μ _{1} - μ _{2} ) ^{2}}{2 σ _{2}^{2}} = \frac{1}{2} (σ_{1}^{2} + μ_{1}^{2} - lo g^{σ_{1}^{2}} - 1)

代码部分

损失函数

通过上述推导，我们知道了需要最小化散度，然后最大化那个均值。所以可以得到如下的损失函数。

    def loss_fn(recon_x, x, mean, log_var):
        BCE = torch.nn.functional.binary_cross_entropy(
            recon_x.view(-1, 28*28), x.view(-1, 28*28), reduction='sum')
        KLD = -0.5 * torch.sum(1 + log_var - mean.pow(2) - log_var.exp())

        return (BCE + KLD) / x.size(0)
1
2
3
4
5
6

Encoder部分

class Encoder(nn.Module):
    def __init__(self, layer_sizes, latent_size):
        super(Encoder, self).__init__()
        self.MLP = nn.Sequential()
        for i, (in_size, out_size) in enumerate(zip(layer_sizes[:-1], layer_sizes[1:])):
            self.MLP.add_module(name="L{:d}".format(i), module=nn.Linear(in_size, out_size))
            self.MLP.add_module(name="A{:d}".format(i), module=nn.ReLU())

        # 首先对图像特征进行一些变换处理，然后将其展开成一维向量，然后通过全连接层得到均值和方差
        self.linear_means = nn.Linear(layer_sizes[-1], latent_size)
        self.linear_log_var = nn.Linear(layer_sizes[-1], latent_size)

    def forward(self, x):
        x = self.MLP(x)

        means = self.linear_means(x)
        log_vars = self.linear_log_var(x)

        return means, log_vars
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

Decoder部分

class Decoder(nn.Module):
    def __init__(self, layer_sizes, latent_size):
        super(Decoder, self).__init__()
        self.MLP = nn.Sequential()
        input_size = latent_size
        
        for i, (in_size, out_size) in enumerate(zip([input_size] + layer_sizes[:-1], layer_sizes)):
            self.MLP.add_module(
                name="L{:d}".format(i), module=nn.Linear(in_size, out_size))
            if i + 1 < len(layer_sizes):
                self.MLP.add_module(name="A{:d}".format(i), module=nn.ReLU())
            else:
                self.MLP.add_module(name="sigmoid", module=nn.Sigmoid())

    def forward(self, z):
        #对输入的z进行全接连操作，最后输出一个重构的x
        x = self.MLP(z)
        return x
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

VAE整体架构

class VAE(nn.Module):
    def __init__(self, encoder_layer_sizes, latent_size, decoder_layer_sizes):
        super(VAE, self).__init__()
        self.latent_size = latent_size
        self.encoder = Encoder(encoder_layer_sizes, latent_size)
        self.decoder = Decoder(decoder_layer_sizes, latent_size)

    def forward(self, x):
        if x.dim() > 2:
            x = x.view(-1, 28 * 28)
        means, log_var = self.encoder(x)
        z = self.reparameterize(means, log_var)
        recon_x = self.decoder(z)
        return recon_x, means, log_var, z

    def reparameterize(self, mu, log_var):
        """
        用于对encoder部分输出的均值方差进行重参数化，采样得到隐式表示部分z
        :param mu:
        :param log_var:
        :return:
        """
        std = torch.exp(0.5 * log_var)
        eps = torch.randn_like(std)
        return mu + eps * std

    def inference(self, z):
        recon_x = self.decoder(z)
        return recon_x
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29

VAE问题

vae只是记住图片，而不是生成图片

2023-11-28_11-50-38

再产生图片时，只是通过像素差异进行评估，则对于关键点像素和可忽略像素之间的图片，两者在vae看来是一致的，但是不是理想的产生图片，因此出现了GAN

参考资料

VAE 模型基本原理简单介绍_vae模型-CSDN博客

高斯分布的KL散度-CSDN博客

ML Lecture 18: Unsupervised Learning - Deep Generative Model (Part II)

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/凡人多烦事01/article/detail/532931