赞
踩
1.Sora能力边界探索
1.Sora能力总结: 1.Text-to-video: 文生视频 2.Image-to-video: 图生视频 3.Video-to-video: 改变源视频风格or场景 2.Sora提升: 1.最大支持60秒高清视频生成,以及基于已有短视频的前后扩展,同时保持人物/ 场景的高度一致性 2.Extending video in time: 视频拓展(前后双向)如奶茶般丝滑过渡的视频融 合能力 3.同一场景的多角度/镜头的生成能力 4.具有动态摄像机运动的视频。随着摄像机的移动和旋转,人和其他场景元素在 三维空间中一致地移动 5.From 1920 x 1080 to 1080 x 1920 视频输出比例自定义支持任意分辨率, 宽高比的视频输出 6.生成的视频虽未完全符合世界规律,但已经可以以假乱真,很多检测手段都未 必能检测出来是AI生成的 3.Sora的局限: 1.Sora对物理规律的理解仍然十分有限
2.Sora模型训练流程
1.原始视频数据切分为 Patches通过 VAE 编码器压缩成低维空间表示
2.基于 Diffusion Transformer完成从文本语义到图像语义的再映射
3.DiT 生成的低维空间表示,通过 VAE 解码器恢复成像素级的视频数据
4.统一表示不同类型的视频数据
5.Sora是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩散模型,同时采用了Transformer架构
6.模型训练:扩散模型 DDPM
7.模型训练:基于扩散模型的主干 U-Net
3.Sora关键技术拆解
1.ViT
2.理解时空编码:Spacetime latent patches
3.摊大饼法:从输入视频剪辑中均匀采样 n_t 个帧,使用与ViT相同的方法独立地嵌入
每个2D帧(embed each 2D frameindependently using the same method as
ViT),并将所有这些token连接在一起
4.技术报告分析
1.时空联合建模
2.SORA 支持不同长度、不同分辨率的输入
3.技术难点:视频压缩网络类似比于Latent Diffusion Model 中的 VAE,但压
缩率是多少,Encoder的复杂度,时空交互的range还需要进一步的探索和实验
4.Peebles 在ICCV上发表了一篇Dit 的工作该文章在TechnicalReport的
Reference中给出:结合 Diffusion Model 和 Transformer,通过 Scale
up Model 提升图像生成质量图像的scaling技术运用到视频场景非常直观,可以
确定是 SORA 的技术之一
5.Diffusion Transformer, = VAE encoder + ViT + DDPM + VAE:DiT
利用 transformer 结构探索新的扩散模型,成功用 transformer 替换 U-
Net 主干
6.网络结构:Diffusion Transformer,DiT
7.技术难点
1.训练数据:OpenAI 使用类似 DALLE3 的Cationining 技术训练了自己
的 Video Captioner用以给视频生成详尽的文本描述
2.保证视频一致性:模型层不通过多个 Stage 方式来进行视频预测而是整
体预测视频的 Latent在训练过程中引入 Auto Regressive的task帮助模
型更好地学习视频特征和帧间关系
8.网络结构: DALLE 2
1.将文本提示输入文本编码器,该训练过的编码器便将文本提示映射到表
示空间;
2.先验模型将文本编码映射到图像编码,图像编码捕获文本编码中的语义
信息;
3.图像解码模型随机生成一幅从视觉上表现该语义信息的图像;
4.个人的思考与总结
1.算力需求增长• 对算力需求增长如何?如 LLM 在服务器形态爆发?推理生产应用端 爆发增长? 1.SORA 模型参数量预计 <30B,模型参数量不会像 LLM 需要千卡/万卡大规模 AI 集群训练(~百卡); 2.DALL·E 3 视频文本标注数据有限(<30B),训练数据不像 LLM 可以无监督 学习; 3.OpenAI 尚未公布 SORA 商业化时间,视频生成距离成熟还有时间距离(< 半年); 4.目前推理算力比 SD、SDXL 要大2/3个量级,需要结合 AI 训练集群或者 AI 推理集群; 5.LLM 大语言模型仍然是2024年消耗算力大头,多模态很多工作建立在语言之 上; 6例:一分钟长度、每秒30帧的视频,平均每帧包含256个token,总计将产生 460k token。以 34B 模型(这里只是一个猜测),需要7xA100资源推理。 Dit XL 输入 512x512, 训练使用一个 TPU V3-256 Pod, 按照 TFLOPS 换 算约等于 105 个 A100。 那么 Sora 需要的训练和微调的资源会是多少?
2.技术总结
1. Scaling Law:模型规模的增大对视频生成质量的提升具有明确意义,从而
很好地解决视频一致性、连续性等问题;
2. Data Engine:数据工程很重要,如何设计视频的输入(e.g. 是否截断、长
宽比、像素优化等)、patches 的输入方式、文本描述和文本图像对质量;AI
Infra:AI 系统(AI 框架、AI 编译器、AI 芯片、大模型)工程化能力是很大
的技术壁垒,决定了 Scaling 的规模。
3. LLM:LLM 大语言模型仍然是核心,多模态(文生图、图生文)都需要文本语
义去牵引和约束生成的内容,CLIP/BLIP/GLIP 等关联模型会持续提升能力;
5.学习笔记原文:Sora技术原理详解
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。