赞
踩
Sora:最大支持生成60秒的连续高清视频场景,基于已有的短视频的前后向扩展,并保持人物的高度一致性。
Sora是2024年2月15日OpenAI公布的文生视频模型(最大支持生成60秒的连续高清视频场景),现在并没有开发用户使用,只是有能力的人可以申请成为“红队”成员进行内部测试,目前关于Sora官方提供的也只有一个技术报告,还有技术报告引用的32篇论文。目前大多数研究人员只能在这个技术报告及其引用文献上挖掘这个大模型里面有可能使用的相关技术。这篇博客也主要是介绍Sora大模型可能采用的技术,并进行简单的介绍,帮助大家了解Sora技术原理。
上面是上面技术报告的一个封面,也是作者想要传达的理念:构建一个通用的物理世界模拟器。尽管Sora还没有正式发布,但它的效果确实惊艳到了很多人,估计现在不少研究人员已经开始挑灯研究了。
文生视频这个领域在2023年其实已经有了一定的进展,国外的runway、Meta、Google,国内的腾讯、百度、阿里巴巴等都已有相关的研究成果。但在Sora出来之前,大多数的模型生成的视频场景有限,生成视频最长能达到16s左右。
Generative AI Video Timeline by Justine Moore
Text-to-video:文生视频
Image-to-video:图生视频
Video-to-video:改变源视频风格或场景
Extending video in time:视频前后向扩展
Create seamless loops: Tiled videos that seem link they never end(视频的结尾有留白)
Image generation:图像生成(最高尺寸达2048$\times$2048)
Generate video in any format:From 1920 $\times$1080 to 1080 $\times$1920视频输出比例自定义
Simulate virtual worlds:链接虚拟世界,游戏视频场景生成
Create a video:长达60秒的视频并保持人物、场景的一致性
文生图能力对比:
从下图中,可以看出,Sora模型训练流程所涉及到的模块流程为:
视频压缩编码模块(VAE Encoder) -> Diffusion Transformer (DiT) -> VAE(VAE Decoder),同时将文字描述编码后输入到DiT用于模型辅助学习。
将RGB帧图像通过Encoder进行Patch切分,展平,之后再通过MLP将特征进行压缩形成一维向量,由此可见,Sora可以支持多分辨率输入。
Sora是一个在不同时长、不同尺度视频和图像上训练而成且基于Transformer的扩散模型结构。
a、Vision Transformer(ViT)模型,主要是Patch切分技术,token向量化技术;
b、摊大饼法:从输入的视频中均匀采样n帧图像,使用与ViT相同的方法独立生成每个图像帧的token,并将n帧数据的tokens拼接在一起。
c、时空建模:普通的ViT针对patch的位置生成了对应的编码信息加入到tokens中,针对视频输入的Transformer不仅使用了位置信息,还加入了时间信息到tokens中。
d、支持不同的长度视频和多分辨率视频输入:将多个patch打包成一个单一序列首先多分辨率输入,具体方法来自Google的NaViT
e、整体网络框架解析
参考链接3的作者从视频编解码的角度分析了官方发布视频,发现“它们都是采用了H.264视频编码标准且帧率fps为30的一镜到底的短视频,且所用的编码器的输入都是8bit的YUV420格式数据,最大分辨率为1080P,Sora发布的视频平均码率大多数都是比较高的,720P视频的平均码率达14220kbps”,这说明生成这些视频是需要大量时间去渲染的,每个视频的信息量很多,冗余较多,大概率是用模型一次性直接生成60秒视频。
(1)目前Sora还没有开发,估计是有某些方面还需要尽快优化,比如生成的时间、视频编解码的方式;
(2)Sora对于数据处理的tricks是值得借鉴的,估计这些又堆了很多数据,并且对数据做了一定程度的清晰;
(3)辅助Transformer学习这块应该是应用了OpenAI现有的不同模态模型辅助进行监督,类似于多模态的信息生成(包括chatGPT、CLIP、GPT4V这些)。
[1] https://openai.com/research/video-generation-models-as-world-simulators
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。