当前位置:   article > 正文

【论文笔记】CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

cogvideo

声明

不定期更新自己精度论文,通俗易懂,初级小白也可以理解

涉及范围:深度学习方向,包括 CV、NLP、Data Fusion

 

论文标题:CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

论文链接:https://arxiv.org/abs/2205.15868

论文代码:https://github.com/THUDM/CogVideo

发表时间:2022年5月

创新点

1. 提出了一种基于 Transformer 的大规模预训练模型 CogVideo,用于文本到视频的生成。该模型使用了94亿个参数,采用了多帧率分层训练策略,能够生成高质量的视频片段。

2. 提出了一种新的视频评估方法,称为“视频-文本匹配度(VTM)”,用于评估生成的视频片段与输入文本的匹配程度。该方法能够更准确地评估模型的性能,避免了传统评估方法中的主观因素。

Abstract

大规模预训练的 Transformer 模型已经在文本(如GPT-3)和文本到图像(如DALL-E和CogView)生成方面取得了里程碑式的成果。然而,将其应用于视频生成仍然面临许多挑战:潜在的巨大计算成本使得从头开始训练不可承受;文本-视频数据集的稀缺性和弱相关性阻碍了模型理解复杂的运动语义。

在本文中,作者提出了一个9B参数的 Transformer 模型CogVideo,通过继承预训练的文本到图像模型 CogView2 进行训练。还提出了多帧率分层训练策略,以更好地对齐文本和视频片段。作为(可能是)第一个开源的大规模预训练文本到视频模型,CogVideo在机器和人类评估中都表现出了比公开可用的其他模型更好的性能。

Method

CogVideo的输入是一段文本描述,输出是一段与文本描述相对应的视频片段。

为了将文本描述转换为视频片段,CogVideo采用了一种基于递归插值的方法,即将文本描述分解为多个子描述,然后逐步生成与每个子描述相对应的视频片段,并将这些视频片段逐层插值得到最终的视频片段。 

递归插值包括两个阶段:顺序生成和递归插值。

在顺序生成阶段,模型根据文本描述生成一组关键帧,这些关键帧是视频片段中最重要的帧,用于确定视频片段的内容和结构。

在递归插值阶段,模型根据文本描述和已生成的关键帧,逐步生成中间帧,以填充关键帧之间的空白。

具体来说,模型将已生成的关键帧分成多个块,然后在每个块之间插入中间帧,以逐步生成完整的视频片段。在递归插值的过程中,模型会根据文本描述和已生成的帧,动态调整帧率和插值方式,以确保生成的视频片段与文本描述相符合。

CogVideo 的主干是一个双通道注意力的Transformer模型,其中包含48层、48个注意力头和9.4亿个参数。

其中,6亿个参数是从 CogView2 模型中继承而来的,包括位置感知的前馈网络、双通道注意力的空间通道、第一帧的位置嵌入以及所有图像和文本词汇的嵌入。

CogVideo 的 Transformer 结构与 CogView 模型的实现几乎相同,采用了夹层归一化和 PB-Relax 等技术来稳定训练。此外,CogVideo 还采用了一种称为 Shifted CogLM attention window 的注意力窗口,用于递归插值模型的实现。

夹层归一化的主要特点:它可以更好地保留网络层的原始特征,同时增强网络的表达能力和稳定性。作者使用夹层归一化,主要希望网络能够更稳定的表达。因为毕竟是生成的嘛!

Shifted CogLM attention window 是 CogVideo 模型中用于递归插值的一种注意力窗口机制。它是对标准的CogLM attention window的一种改进,可以有效地减少递归插值过程中的计算成本和内存占用。

具体来说,Shifted CogLM attention window 是一种基于滑动窗口的注意力机制,它将注意力窗口从固定大小的矩形窗口改为可变大小的滑动窗口。在递归插值的过程中,Shifted CogLM attention window 可以根据当前生成的帧和已生成的帧,动态调整窗口的大小和位置,以使注意力机制更加准确和高效。

与标准的 CogLM attention window 相比,Shifted CogLM attention window 的优点在于它可以减少递归插值过程中的计算成本和内存占用。由于 Shifted CogLM attention window 采用了滑动窗口的方式,它可以在不增加计算成本的情况下,处理更大的视频片段和更长的文本描述。

Experiments

消融研究中的视频样本,在类别标签和前5个标签上生成 Kinetics-600 中的帧

 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/天景科技苑/article/detail/1010356
推荐阅读
相关标签
  

闽ICP备14008679号