当前位置:   article > 正文

Sora技术原理浅析_generative ai video timeline

generative ai video timeline

Sora:最大支持生成60秒的连续高清视频场景,基于已有的短视频的前后向扩展,并保持人物的高度一致性。

1、介绍

 Sora是2024年2月15日OpenAI公布的文生视频模型(最大支持生成60秒的连续高清视频场景),现在并没有开发用户使用,只是有能力的人可以申请成为“红队”成员进行内部测试,目前关于Sora官方提供的也只有一个技术报告,还有技术报告引用的32篇论文。目前大多数研究人员只能在这个技术报告及其引用文献上挖掘这个大模型里面有可能使用的相关技术。这篇博客也主要是介绍Sora大模型可能采用的技术,并进行简单的介绍,帮助大家了解Sora技术原理。

在这里插入图片描述

 上面是上面技术报告的一个封面,也是作者想要传达的理念:构建一个通用的物理世界模拟器。尽管Sora还没有正式发布,但它的效果确实惊艳到了很多人,估计现在不少研究人员已经开始挑灯研究了。

2、2023年文生视频发展史

 文生视频这个领域在2023年其实已经有了一定的进展,国外的runway、Meta、Google,国内的腾讯、百度、阿里巴巴等都已有相关的研究成果。但在Sora出来之前,大多数的模型生成的视频场景有限,生成视频最长能达到16s左右。

在这里插入图片描述
Generative AI Video Timeline by Justine Moore

3、Sora能力总结

  • Text-to-video:文生视频

  • Image-to-video:图生视频

  • Video-to-video:改变源视频风格或场景

  • Extending video in time:视频前后向扩展

  • Create seamless loops: Tiled videos that seem link they never end(视频的结尾有留白)

  • Image generation:图像生成(最高尺寸达2048$\times$2048)

  • Generate video in any format:From 1920 $\times$1080 to 1080 $\times$1920视频输出比例自定义

  • Simulate virtual worlds:链接虚拟世界,游戏视频场景生成

  • Create a video:长达60秒的视频并保持人物、场景的一致性

 文生图能力对比:
在这里插入图片描述在这里插入图片描述

4、模型训练流程介绍

 从下图中,可以看出,Sora模型训练流程所涉及到的模块流程为:

在这里插入图片描述

 视频压缩编码模块(VAE Encoder) -> Diffusion Transformer (DiT) -> VAE(VAE Decoder),同时将文字描述编码后输入到DiT用于模型辅助学习。

(1)视频压缩编码模块

 将RGB帧图像通过Encoder进行Patch切分,展平,之后再通过MLP将特征进行压缩形成一维向量,由此可见,Sora可以支持多分辨率输入。

在这里插入图片描述

(2)Diffusion Transformer(DiT)

 Sora是一个在不同时长、不同尺度视频和图像上训练而成且基于Transformer的扩散模型结构。

在这里插入图片描述

(3)关键技术说明

 a、Vision Transformer(ViT)模型,主要是Patch切分技术,token向量化技术;

 b、摊大饼法:从输入的视频中均匀采样n帧图像,使用与ViT相同的方法独立生成每个图像帧的token,并将n帧数据的tokens拼接在一起。

 c、时空建模:普通的ViT针对patch的位置生成了对应的编码信息加入到tokens中,针对视频输入的Transformer不仅使用了位置信息,还加入了时间信息到tokens中。

 d、支持不同的长度视频和多分辨率视频输入:将多个patch打包成一个单一序列首先多分辨率输入,具体方法来自Google的NaViT

 e、整体网络框架解析
在这里插入图片描述

5、视频编解码

 参考链接3的作者从视频编解码的角度分析了官方发布视频,发现“它们都是采用了H.264视频编码标准且帧率fps为30的一镜到底的短视频,且所用的编码器的输入都是8bit的YUV420格式数据,最大分辨率为1080P,Sora发布的视频平均码率大多数都是比较高的,720P视频的平均码率达14220kbps”,这说明生成这些视频是需要大量时间去渲染的,每个视频的信息量很多,冗余较多,大概率是用模型一次性直接生成60秒视频。

6、个人见解

 (1)目前Sora还没有开发,估计是有某些方面还需要尽快优化,比如生成的时间、视频编解码的方式;

 (2)Sora对于数据处理的tricks是值得借鉴的,估计这些又堆了很多数据,并且对数据做了一定程度的清晰;

 (3)辅助Transformer学习这块应该是应用了OpenAI现有的不同模态模型辅助进行监督,类似于多模态的信息生成(包括chatGPT、CLIP、GPT4V这些)。

6、参考链接

[1] https://openai.com/research/video-generation-models-as-world-simulators

[2] http://mp.weixin.qq.com/s?__biz=MzkxNTM5NTg2OA==&mid=2247490141&idx=1&sn=ad1165dcb196741bdb0ad4de375ce080&chksm=c15e9e2ef6291738eb4214df317b8617c1aeec2b8d68942c375e1c12f9696a2e76b6f13f7230&mpshare=1&scene=24&srcid=02198U4PRGDXmDq6sEBsOiJS&sharer_shareinfo=281e2e69fcc988938e6164dea8dbf03a&sharer_shareinfo_first=281e2e69fcc988938e6164dea8dbf03a#rd

[3] https://mp.weixin.qq.com/s/z3LInOCwNXzGV_NzO1wv8g

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号