赞
踩
©PaperWeekly 原创 · 作者|苏剑林
单位|追一科技
研究方向|NLP、神经网络
前几天笔者在日常刷 arixv 的时候,然后被一篇新出来的论文震惊了!论文名字叫做 NVAE: A Deep Hierarchical Variational Autoencoder,顾名思义是做 VAE 的改进工作的,提出了一个叫 NVAE 的新模型。
说实话,笔者点进去的时候是不抱什么希望的,因为笔者也算是对 VAE 有一定的了解,觉得 VAE 在生成模型方面的能力终究是有限的。结果,论文打开了,呈现出来的画风是这样的:
▲ NVAE的人脸生成效果
然后笔者的第一感觉是这样的:W!T!F! 这真的是 VAE 生成的效果?这还是我认识的 VAE 么?看来我对 VAE 的认识还是太肤浅了啊,以后再也不能说 VAE 生成的图像模糊了...
不过再看了看作者机构,原来是 NVIDIA,这也大概能接受了。最近几年可能大家都留意到 NVIDIA 通常都在年底发布个生成模型的突破,2017 年底是 PGGAN [1] ,2018 年底是 StyleGAN [2] ,2019 年底是 StyleGAN2 [3] 。
今年貌似早了些,而且动作也多了些,因为上个月才发了个叫 ADA 的方法,将 Cifar-10 的生成效果提到了一个新高度,现在又来了个 NVAE。
论文标题:NVAE: A Deep Hierarchical Variational Autoencoder
论文链接:https://arxiv.org/abs/2007.03898
那这个 NVAE 究竟有什么特别的地方,可以实现 VAE 生成效果的突飞猛进呢?
VAE回顾
可能读者认真观察后会说:好像还是有点假呀,那脸部也太光滑了,好像磨过皮一样,还比不上 StyleGAN 呀~
是的,这样评价并没有错,生成痕迹还是挺明显的。但如果你没感觉到震惊,那估计是因为你没看过之前的 VAE 生成效果,一般的 VAE 生成画风是这样的:
▲ 一般的VAE的随机生成效果
所以,你还觉得这不是一个突破吗?
那么,是什么限制了(以前的)VAE 的表达能力呢?这一次的突破又是因为改进了哪里呢?让我们继续看下去。
1.1 基本介绍
VAE,即变分自编码器(Variational Auto-Encoder),本人已经有不少文章介绍过了,在公众号后台搜索“变分自编码器”就能搜到很多相关文章。这里做个简单的回顾和分析。
在笔者对 VAE 的推导里边,我们是先有一批样本,这批样本代表着一个真实的(但不知道形式的)分布 ,然后我们构建一个带参数的后验分布 ,两者就组成一个联合分布 。
接着,我们再定义一个先验分布 q(z),已经定义一个生成分布 ,这样构成另一个联合分布 。最后,我们的目的就是让 相互接近起来,所以我们去优化两者之间的 KL 散度:
这就是 VAE 的优化目标。
1.2 困难分析
对
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。