赞
踩
TivGAN Text to Image to VIdeo Generation with Step by Step Evolutionary Generator论文阅读笔记
论文源地址:https://arxiv.org/pdf/2009.02018.pdf
出版于2020.8.19 发表在IEEE Access
本人的话:一些翻译不来的词会直接写英文原文。没有网络整体的细节,不建议复现。
本论文提出了一个全新的框架——Text-to-Image-to-Video GAN(TiVGAN),希望实现从文本生成视频。原理主要是逐帧生成最后成为一段完整的视频。在第一阶段,我们专注于通过学习文本与图片的关系生成一个高质量的单个视频帧,然后再将模型用于更多的连续帧上面。
关键词:计算机视觉,深度学习,GAN,视频生成,文本生成视频;
近来,变分自编码器(Variational Auto Encoders, VAEs)和GANs代表了最前沿的生成领域的研究。
图片生成只关心单个帧的完整性,而视频生成还需要考虑到帧与帧之间的联系。此外,所有公开的视频数据集很diverse和unaligned,使得视频生成任务更加地复杂。
关于text-to-video的研究很稀少,并且相比于T2I,分辨率低。
本研究针对生成与给定文本相匹配的视频的问题,提出了一个新的网络,它建立在视频的连续帧具有很大连续性的基本概念上。如果我们创建了一个高质量的视频帧,那么会很容易地在创建一个相关的连续帧。
“Generating videos with scene dynamics”这篇论文通过对每个场景进行2D空间卷积和3D时空卷积分离了场景的背景与前景。
TGAN使用两个不同的generator来实现时间向量采样和基于已获得向量的多个帧的创建。
MoCoGAN建议通过对动作和内容空间的分离来生成有效的视频。他们使用了一个RNN来从动作子空间采样,然后再和内容向量concat生成连续帧。
“Video generation from text”这篇论文使用条件VAE来生成一个要点‘gist’,gist指视频背景颜色和object layer,然后视频内容和动作基于gist和文本生成。
“To create what you tell: Generating videos from captions”介绍了一个全新的框架,它使用了3D卷积和不同类型的loss。
"Conditional gan with discriminative filter generation for text-to-video synthesis"使用了multi-scale text conditioning scheme with GANs.
我们将训练过程分为:Text-to-Image Generation和Evolutionary Generation。如下图:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。