搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
寸_铁
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
STM32F407 通过定时器实现外部时钟控制AD采集频率_怎么利用定时器设置采样频率
2
Linux下安装Hadoop(2.7.1)详解及WordCount运行_hadoop2.7.1下载linux
3
机器学习四:神经网络识别手写数字(Matlab)_matlab手写数字识别代码
4
Python编程从入门到实践_第六章_字典_python编程从入门到实践第六章
5
java面试题库app_java刷题app
6
AI大模型产品经理学习笔记:你必须知道50个技术关键词_ai关键词
7
来自 Visual Studio Code 的 Git 推送:“remote: No anonymous write access.“ 解决方案_missing or invalid credentials.
8
用C语言编写一个程序,能用蜂鸣器实现一段青花瓷音乐的一段播放_蜂鸣器唱歌代码青花瓷
9
实时计算 Flink 版总体介绍_realtime compute flink
10
最好用的100个黑科技网站_黑科技论坛
当前位置:
article
> 正文
CogVideo阅读笔记
作者:寸_铁 | 2024-08-21 05:49:04
赞
踩
cogvideo
笔记目录
1. 基本信息
2. 理解(个人初步理解,随时修改)
3. 精读
1. 基本信息
题目:CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers
时间:2022.5
发表:ICLR2023
机构:Tsinghua University ,BAAI
作者:Wenyi Hong等
链接直达:
github
/
paper
/
project
关键词:AIGC,text-to-video
概括:CogVideo是目前最大的通用领域文本到视频生成预训练模型,含94亿参数。CogVideo将预训练文本到图像生成模型(CogView2)有效地利用到文本到视频生成模型,并使用了多帧率分层训练策略。
摘要翻译:大规模预训练转换器在文本 (GPT-3) 和文本到图像(DALL-E 和 CogView)生成方面创造了里程碑。它在视频生成中的应用仍然面临许多挑战:潜在的巨大计算成本使得从头开始的训练难以承受;文本-视频数据集的稀缺性和弱相关性阻碍了模型对复杂运动语义的理解。在这项工作中,我们提出了 9B 参数Transformer CogVideo,它通过继承预训练的文本到图像模型 CogView2 进行训练。我们还提出了多帧率分层训练策略,以更好地对齐文本和视频剪辑。作为(可能)第一个开源的大规模预训练文本到视频模型,CogVideo 在机器和人工评估方面远远优于所有公开可用的模型。
2. 理解(个人初步理解,随时修改)
干了一件什么事:提出了 9B 参数Transformer,通过继承一个预训练的text-to-image模型CogView2进行训练。提出多帧率分层训练策略,以更好地对齐文本和video。
backbone:Transformer based。
CogVideo 中的多帧率分层生成框架(如图):
CogVideo 中的多帧率分层生成框架。输入序列包括帧速率、文本、帧标记。[B] (Begin-of-image) 是一个分隔符标记,继承自 CogView2。在第 1 阶段,
T s T_s
T
s
帧在帧速率和文本的条件下依次生成。然后在第 2 阶段,生成的帧被重新输入为双向注意力区域,以递归插值帧。帧速率可以在两个阶段进行调整。双向注意区域以蓝色突出显示,单向区域以绿色突出显示。
3. 精读
暂无
参考文献
https:/
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/寸_铁/article/detail/1010374
推荐阅读
article
CogVideo
实测,
智谱
「清影」
AI
视频
生成
,全民免费,连
API
都开放了!_cogvideo...
智谱
AI
视频
生成
智能体「清影」,全民免费,连
API
都开放了_
cogvideox
cogvideox
...
赞
踩
article
MLM
之
CogVideo
:
CogVideo
(国产版
Sora
)
的
简介
、
安装和
使用
方法
、
案例
应用
之详细攻...
MLM
之
CogVideo
:
CogVideo
的
简介
、
安装和
使用
方法
、
案例
应用
之详细攻略目录
CogVideo
的
简介CogV...
赞
踩
article
Cogvideo
:通过
变压器
进行
文本
到
视频
的
大规模
预处理
...
一代中创建了里程碑。它在
视频
生成上的应用仍面临许多挑战:潜在的巨大计算成本使从头开始培训无法承受;
文本
视频
数据集的稀缺性...
赞
踩
article
【论文笔记】Cog
Video
:
Large
-
scale
Pretraining
for
Text-t...
Cog
Video
是一个94亿参数的Trans
for
mer模型,用于文本到视频生成。通过多帧率分层训练和递归插值方法,生成...
赞
踩
article
探索
技术
新星:
CogVideo
-
视频
理解
与
处理
的
利器...
探索
技术
新星:
CogVideo
-
视频
理解
与
处理
的
利器项目地址:https://gitcode.com/THUDM/C...
赞
踩
相关标签
AI视频生成
智谱清影
CogVideo
国产版Sora
计算机视觉
python
论文阅读
transformer
深度学习