当前位置:   article > 正文

Task01:Sora技术路径详解

Task01:Sora技术路径详解

1.Sora能力边界探索

1.Sora能力总结:
	1.Text-to-video: 文生视频
	2.Image-to-video: 图生视频
	3.Video-to-video: 改变源视频风格or场景
2.Sora提升:
	1.最大支持60秒高清视频生成,以及基于已有短视频的前后扩展,同时保持人物/
	场景的高度一致性
	2.Extending video in time: 视频拓展(前后双向)如奶茶般丝滑过渡的视频融
	合能力
	3.同一场景的多角度/镜头的生成能力
	4.具有动态摄像机运动的视频。随着摄像机的移动和旋转,人和其他场景元素在
	三维空间中一致地移动
	5.From 1920 x 1080 to 1080 x 1920 视频输出比例自定义支持任意分辨率,
	宽高比的视频输出
	6.生成的视频虽未完全符合世界规律,但已经可以以假乱真,很多检测手段都未
	必能检测出来是AI生成的
3.Sora的局限:
	1.Sora对物理规律的理解仍然十分有限
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18

2.Sora模型训练流程

1.原始视频数据切分为 Patches通过 VAE 编码器压缩成低维空间表示
2.基于 Diffusion Transformer完成从文本语义到图像语义的再映射
3.DiT 生成的低维空间表示,通过 VAE 解码器恢复成像素级的视频数据
  • 1
  • 2
  • 3

在这里插入图片描述

4.统一表示不同类型的视频数据
  • 1

在这里插入图片描述

5.Sora是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩散模型,同时采用了Transformer架构
  • 1

在这里插入图片描述

6.模型训练:扩散模型 DDPM
  • 1

在这里插入图片描述 在这里插入图片描述 在这里插入图片描述

7.模型训练:基于扩散模型的主干 U-Net
  • 1

在这里插入图片描述在这里插入图片描述在这里插入图片描述

3.Sora关键技术拆解

1.ViT
  • 1

在这里插入图片描述

2.理解时空编码:Spacetime latent patches
  • 1

在这里插入图片描述

3.摊大饼法:从输入视频剪辑中均匀采样 n_t 个帧,使用与ViT相同的方法独立地嵌入
每个2D帧(embed each 2D frameindependently using the same method as 
ViT),并将所有这些token连接在一起
  • 1
  • 2
  • 3

在这里插入图片描述

在这里插入图片描述

4.技术报告分析

	1.时空联合建模
  • 1
  • 2
  • 3

在这里插入图片描述

	2.SORA 支持不同长度、不同分辨率的输入
  • 1

在这里插入图片描述

	3.技术难点:视频压缩网络类似比于Latent Diffusion Model 中的 VAE,但压
	缩率是多少,Encoder的复杂度,时空交互的range还需要进一步的探索和实验
	4.Peebles 在ICCV上发表了一篇Dit 的工作该文章在TechnicalReport的
	Reference中给出:结合 Diffusion Model 和 Transformer,通过 Scale 
	up Model 提升图像生成质量图像的scaling技术运用到视频场景非常直观,可以
	确定是 SORA 的技术之一
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

在这里插入图片描述

	5.Diffusion Transformer, = VAE encoder + ViT + DDPM + VAE:DiT
	 利用 transformer 结构探索新的扩散模型,成功用 transformer 替换 U-
	 Net 主干
  • 1
  • 2
  • 3

在这里插入图片描述

	6.网络结构:Diffusion Transformer,DiT
  • 1

在这里插入图片描述

	7.技术难点
  • 1

在这里插入图片描述

		1.训练数据:OpenAI 使用类似 DALLE3 的Cationining 技术训练了自己
		的 Video Captioner用以给视频生成详尽的文本描述
		2.保证视频一致性:模型层不通过多个 Stage 方式来进行视频预测而是整
		体预测视频的 Latent在训练过程中引入 Auto Regressive的task帮助模
		型更好地学习视频特征和帧间关系
  • 1
  • 2
  • 3
  • 4
  • 5

在这里插入图片描述

	8.网络结构: DALLE 2
		1.将文本提示输入文本编码器,该训练过的编码器便将文本提示映射到表
		示空间;
		2.先验模型将文本编码映射到图像编码,图像编码捕获文本编码中的语义
		信息;
		3.图像解码模型随机生成一幅从视觉上表现该语义信息的图像;
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

在这里插入图片描述

4.个人的思考与总结

1.算力需求增长• 对算力需求增长如何?如 LLM 在服务器形态爆发?推理生产应用端
爆发增长?
	1.SORA 模型参数量预计 <30B,模型参数量不会像 LLM 需要千卡/万卡大规模
	 AI 集群训练(~百卡);
	 2.DALL·E 3 视频文本标注数据有限(<30B),训练数据不像 LLM 可以无监督
	 学习;
	 3.OpenAI 尚未公布 SORA 商业化时间,视频生成距离成熟还有时间距离(< 
	 半年);
	 4.目前推理算力比 SD、SDXL 要大2/3个量级,需要结合 AI 训练集群或者 
	 AI 推理集群;
	 5.LLM 大语言模型仍然是2024年消耗算力大头,多模态很多工作建立在语言之
	 上;
	6例:一分钟长度、每秒30帧的视频,平均每帧包含256个token,总计将产生 
	460k token。以 34B 模型(这里只是一个猜测),需要7xA100资源推理。
	Dit XL 输入 512x512, 训练使用一个 TPU V3-256 Pod, 按照 TFLOPS 换
	算约等于 105 个 A100。 那么 Sora 需要的训练和微调的资源会是多少?
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16

在这里插入图片描述

2.技术总结
	1. Scaling Law:模型规模的增大对视频生成质量的提升具有明确意义,从而
	很好地解决视频一致性、连续性等问题;
	2. Data Engine:数据工程很重要,如何设计视频的输入(e.g. 是否截断、长
	宽比、像素优化等)、patches 的输入方式、文本描述和文本图像对质量;AI 
	Infra:AI 系统(AI 框架、AI 编译器、AI 芯片、大模型)工程化能力是很大
	的技术壁垒,决定了 Scaling 的规模。
	3. LLM:LLM 大语言模型仍然是核心,多模态(文生图、图生文)都需要文本语
	义去牵引和约束生成的内容,CLIP/BLIP/GLIP 等关联模型会持续提升能力;
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

5.学习笔记原文:Sora技术原理详解

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/541073
推荐阅读
相关标签
  

闽ICP备14008679号