清华&BAAI唐杰团队提出第一个开源的通用大规模预训练文本到视频生成模型CogVideo，含94亿超大参数量！代码即将开源！...

作者：IT小白 | 2024-08-21 05:37:55

踩

cogvideo网站

关注公众号，发现CV技术之美

我爱计算机视觉

专业计算机视觉技术分享平台，“有价值有深度”，分享开源技术与最新论文解读，传播视觉技术的业内最佳实践。知乎/微博：我爱计算机视觉，官网 www.52cv.net 。KeyWords：深度学习、机器学习、计算机视觉、人工智能。

公众号

本篇分享论文『CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers』，油清华&BAAI唐杰团队提出第一个开源的通用大规模预训练文本到视频生成模型CogVideo，含94亿超大参数量！代码即将开源！

详细信息如下：

论文链接：https://arxiv.org/abs/2205.15868
项目链接：https://github.com/THUDM/CogVideo

摘要

大规模预训练Transformer在文本（GPT-3）和文本到图像（DALL-E和CogView）生成方面创造了里程碑。它在视频生成中的应用仍然面临着许多挑战：潜在的巨大计算成本使得从头开始的训练难以负担；文本视频数据集的稀缺性和弱相关性阻碍了模型对复杂运动语义的理解。

在这项工作中，作者提出了9B参数Transformer——CogVideo，通过继承预训练文本到图像模型CogView2进行训练。作者还提出了多帧率分层训练策略，以更好地对齐文本和视频片段。作为（可能）第一个开源的大规模预训练文本到视频模型，CogVideo在机器和人工评估方面大大优于所有公开可用的模型。

Motivation

自回归Transformer，如DALL-E和CogView，最近彻底改变了文本到图像的生成。研究自回归Transformer在文本到视频生成中的潜力是很自然的。之前的工作遵循这一基本框架，例如VideoGPT，验证了其优于基于GAN的方法，但仍远不能令人满意。

一个常见的挑战是，生成的视频帧往往会逐渐偏离文本提示，使生成的角色难以执行所需的操作。Vanilla自回归模型可能擅长合成具有规则（例如直线移动的汽车）或随机模式（例如，通过随机移动的嘴唇说话）的视频，但在文本提示上失败，例如“狮子正在喝水”。这两种情况之间的主要区别在于，在前一种情况下，第一帧已经为后续的更改提供了足够的信息，而在后一种情况下，模型必须准确理解“喝”的动作，以便正确生成所需的动作——狮子将玻璃杯举到嘴唇，喝下，然后放下玻璃杯。

为什么自回归Transformer很好地理解文本-图像关系，但却很难理解视频中的文本-动作关系？作者认为数据集和利用它们的方式是主要原因。

首先，可以从互联网上收集数十亿对高质量的文本

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/IT小白/article/detail/1010318