赞
踩
声明
不定期更新自己精度论文,通俗易懂,初级小白也可以理解
论文标题:CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers
论文链接:https://arxiv.org/abs/2205.15868
论文代码:https://github.com/THUDM/CogVideo
发表时间:2022年5月
1. 提出了一种基于 Transformer 的大规模预训练模型 CogVideo,用于文本到视频的生成。该模型使用了94亿个参数,采用了多帧率分层训练策略,能够生成高质量的视频片段。
2. 提出了一种新的视频评估方法,称为“视频-文本匹配度(VTM)”,用于评估生成的视频片段与输入文本的匹配程度。该方法能够更准确地评估模型的性能,避免了传统评估方法中的主观因素。
大规模预训练的 Transformer 模型已经在文本(如GPT-3)和文本到图像(如DALL-E和CogView)生成方面取得了里程碑式的成果。然而,将其应用于视频生成仍然面临许多挑战:潜在的巨大计算成本使得从头开始训练不可承受;文本-视频数据集的稀缺性和弱相关性阻碍了模型理解复杂的运动语义。
在本文中,作者提出了一个9B参数的 Transformer 模型CogVideo,通过继承预训练的文本到图像模型 CogView2 进行训练。还提出了多帧率分层训练策略,以更好地对齐文本和视频片段。作为(可能是)第一个开源的大规模预训练文本到视频模型,CogVideo在机器和人类评估中都表现出了比公开可用的其他模型更好的性能。
CogVideo的输入是一段文本描述,输出是一段与文本描述相对应的视频片段。
为了将文本描述转换为视频片段,CogVideo采用了一种基于递归插值的方法,即将文本描述分解为多个子描述,然后逐步生成与每个子描述相对应的视频片段,并将这些视频片段逐层插值得到最终的视频片段。
递归插值包括两个阶段:顺序生成和递归插值。
在顺序生成阶段,模型根据文本描述生成一组关键帧,这些关键帧是视频片段中最重要的帧,用于确定视频片段的内容和结构。
在递归插值阶段,模型根据文本描述和已生成的关键帧,逐步生成中间帧,以填充关键帧之间的空白。
具体来说,模型将已生成的关键帧分成多个块,然后在每个块之间插入中间帧,以逐步生成完整的视频片段。在递归插值的过程中,模型会根据文本描述和已生成的帧,动态调整帧率和插值方式,以确保生成的视频片段与文本描述相符合。
CogVideo 的主干是一个双通道注意力的Transformer模型,其中包含48层、48个注意力头和9.4亿个参数。
其中,6亿个参数是从 CogView2 模型中继承而来的,包括位置感知的前馈网络、双通道注意力的空间通道、第一帧的位置嵌入以及所有图像和文本词汇的嵌入。
CogVideo 的 Transformer 结构与 CogView 模型的实现几乎相同,采用了夹层归一化和 PB-Relax 等技术来稳定训练。此外,CogVideo 还采用了一种称为 Shifted CogLM attention window 的注意力窗口,用于递归插值模型的实现。
夹层归一化的主要特点:它可以更好地保留网络层的原始特征,同时增强网络的表达能力和稳定性。作者使用夹层归一化,主要希望网络能够更稳定的表达。因为毕竟是生成的嘛!
Shifted CogLM attention window 是 CogVideo 模型中用于递归插值的一种注意力窗口机制。它是对标准的CogLM attention window的一种改进,可以有效地减少递归插值过程中的计算成本和内存占用。
具体来说,Shifted CogLM attention window 是一种基于滑动窗口的注意力机制,它将注意力窗口从固定大小的矩形窗口改为可变大小的滑动窗口。在递归插值的过程中,Shifted CogLM attention window 可以根据当前生成的帧和已生成的帧,动态调整窗口的大小和位置,以使注意力机制更加准确和高效。
与标准的 CogLM attention window 相比,Shifted CogLM attention window 的优点在于它可以减少递归插值过程中的计算成本和内存占用。由于 Shifted CogLM attention window 采用了滑动窗口的方式,它可以在不增加计算成本的情况下,处理更大的视频片段和更长的文本描述。
消融研究中的视频样本,在类别标签和前5个标签上生成 Kinetics-600 中的帧
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。