当前位置:   article > 正文

强大的NVAE:以后再也不能说VAE生成的图像模糊了

hierarchical variational autoencoders

©PaperWeekly 原创 · 作者|苏剑林

单位|追一科技

研究方向|NLP、神经网络

前几天笔者在日常刷 arixv 的时候,然后被一篇新出来的论文震惊了!论文名字叫做 NVAE: A Deep Hierarchical Variational Autoencoder,顾名思义是做 VAE 的改进工作的,提出了一个叫 NVAE 的新模型。

说实话,笔者点进去的时候是不抱什么希望的,因为笔者也算是对 VAE 有一定的了解,觉得 VAE 在生成模型方面的能力终究是有限的。结果,论文打开了,呈现出来的画风是这样的:

▲ NVAE的人脸生成效果

然后笔者的第一感觉是这样的:W!T!F! 这真的是 VAE 生成的效果?这还是我认识的 VAE 么?看来我对 VAE 的认识还是太肤浅了啊,以后再也不能说 VAE 生成的图像模糊了...

不过再看了看作者机构,原来是 NVIDIA,这也大概能接受了。最近几年可能大家都留意到 NVIDIA 通常都在年底发布个生成模型的突破,2017 年底是 PGGAN [1] ,2018 年底是 StyleGAN [2] ,2019 年底是 StyleGAN2 [3] 。

今年貌似早了些,而且动作也多了些,因为上个月才发了个叫 ADA 的方法,将 Cifar-10 的生成效果提到了一个新高度,现在又来了个 NVAE。

论文标题:NVAE: A Deep Hierarchical Variational Autoencoder

论文链接:https://arxiv.org/abs/2007.03898

那这个 NVAE 究竟有什么特别的地方,可以实现 VAE 生成效果的突飞猛进呢?

VAE回顾

可能读者认真观察后会说:好像还是有点假呀,那脸部也太光滑了,好像磨过皮一样,还比不上 StyleGAN 呀~

是的,这样评价并没有错,生成痕迹还是挺明显的。但如果你没感觉到震惊,那估计是因为你没看过之前的 VAE 生成效果,一般的 VAE 生成画风是这样的:

▲ 一般的VAE的随机生成效果

所以,你还觉得这不是一个突破吗?

那么,是什么限制了(以前的)VAE 的表达能力呢?这一次的突破又是因为改进了哪里呢?让我们继续看下去。

1.1 基本介绍

VAE,即变分自编码器(Variational Auto-Encoder),本人已经有不少文章介绍过了,在公众号后台搜索“变分自编码器”就能搜到很多相关文章。这里做个简单的回顾和分析。

在笔者对 VAE 的推导里边,我们是先有一批样本,这批样本代表着一个真实的(但不知道形式的)分布 ,然后我们构建一个带参数的后验分布 ,两者就组成一个联合分布

接着,我们再定义一个先验分布 q(z),已经定义一个生成分布 ,这样构成另一个联合分布 。最后,我们的目的就是让 相互接近起来,所以我们去优化两者之间的 KL 散度:

这就是 VAE 的优化目标。

1.2 困难分析

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/375505
推荐阅读
相关标签
  

闽ICP备14008679号