赞
踩
Sora是一个基于大规模训练的文本控制视频生成扩散模型。 Sora能够生成高达1分钟的高清视频,涵盖广泛的视觉数据类型和分辨率。 Sora使用简单的文本描述,使得视频创作变得前所未有的简单和高效。
Sora要做一个世界模拟器
部分原文:
Video generation models as world simulators
We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transformer architecture that operates on spacetime patches of video and image latent codes. Our largest model, Sora, is capable of generating a minute of high fidelity video. **Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.**
原文链接:https://openai.com/research/video-generation-models-as-world-simulators
Sora是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩散模型,同时采用了Transformer架构
扩散模型示意图:
模型训练:DDPM (Doiseing Diffusion Probabilistic models)
DDPM的整个工作流程
在时间和空间两个维度上,对视频进行编码
从输入视频剪辑中均匀采样 n_t 个帧,使用与ViT相同的方法独立地嵌入每个2D帧(embed each 2D frame independently using the same method as ViT),并将所有这些token连接在一起
将输入的视频划分为若干个tuplet,每个tuplet会变成一个token
经过Spatial Temperal Attention 进行空间/时间建模获得有效的视频表征token,即下图灰色部分。
Sora支持不同长度,不同分辨率的输入 NaViT(google),还支持去重的功能。
技术难点:视频压缩网络,Encoder的复杂度、时空交互的range
结合 Diffusion Model 和 Transformer, 通过 Scale up Model 提升图像生成质量图像的scaling技术运用到视频场景非常直观, 可以确定是 SORA 的技术之一
Diffusion Transformer = VAE encoder + ViT + DDPM + VAE
DiT 利用 transformer 结构探索新的扩散模型,成功用 transformer 替换 U-Net 主干
DiT示例
• 例如输入一张256x256x3的图片,经过Encoder后得到对应的latent
• 推理时输入32x32x4的噪声,得到32x32x4的latent
• 结合当前的 step t , 输入label y , 经过N个Dit Block通过 MLP 进行输出
• 得到输出的噪声以及对应的协方差矩阵
• 经过T个step采样,得到32x32x4的降噪后的latent
• 在训练时, 需要使得去躁后的latent和第一步得到的latent尽可能一致
技术难点:工程化是非常难的。1.Transformer Scale up到多大?2.从头训练到收敛的trick?3.如何实现长视频的支持;4.如何保证视频中实体的高质量和一致性?
OpenAI视频的生成路径:用Patch预测下一个Patch
Sora对文本对的训练使用了DALLE 2
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。