OpenAI视频大模型Sora底层剖析

作者：花生_TL007 | 2024-03-18 07:00:11

踩

OpenAI视频大模型Sora底层剖析

前言

参考文章：OpenAI视频模型Sora的剖析与思考https://kaiho.cc/sora-principle-analysis/

在之前的视频生成技术领域，Runway一直被视为一个标杆，尽管它支持的视频长度最多只有18秒，而且镜头相对固定，其生成的内容更类似于动态图像，效果并不理想。至于Pika，它的营销宣传似乎大于实际效果，因此并未引起太多关注。

尽管Runway在最近的更新中宣称视频生成技术已经迎来了类似GPT的革命性时刻，但实际上它仍然处于一个相对初级的阶段，更像是一个有趣的玩具，而非实用工具。相比之下，Sora则真正实现了视频生成技术的飞跃，它的出现可以被认为是视频生成领域的一个重要里程碑。

观察Sora生成的视频效果，我们会发现其质量之高，以至于很难区分这些视频是由Sora生成的，还是来自于电影、纪录片、游戏、动画等经过高成本制作的精美内容。Sora生成的视频在视觉效果上与这些高质量内容相媲美，这无疑是一个令人印象深刻的成就。

对于那些对Sora不太了解的朋友，可以在视频平台上搜索一下相关内容，你会发现许多展示Sora生成效果的视频，这些视频会给你一个直观的感受，让你领略Sora在视频生成技术上的强大能力。

在今天的讨论中，主要探讨一下Sora的算法原理，分析它是如何实现如此高质量视频生成的，以及它在AI领域的意义和产品化能力

未来开放Sora也需要ChatGPT4才能使用，还没体验GPT4的小伙伴可以先体验一下，为后续内测和使用打个基础先，想升级的小伙伴可以查看这篇文章：2024 最新 ChatGPT-4.0（ChatGPT Plus）升级超详细教程https://kaiho.cc/how-to-upgrade-chatgpt-to-plus/

算法原理

自GPT-3以来OpenAI就没有公开模型的详细原理，包括ChatGPT的具体参数量，训练过程等，这次发布的Sora同样对其算法原理保持了一定的神秘性。

简而言之，Sora采用了结合Transformer和Diffusion模型的架构，对视频结构进行了全面的创新。首先，它对视频进行处理，将其转换为具有时序的向量序列。Transformer模型擅长于预测一个向量序列中的下一个向量，因此无论是处理语言还是视频，都需要将原始信息转换为一个由高维向量组成的序列。对于GPT来说，这个最小单位是Token；而对于Sora来说，这个最小单位是Patch。

不同之处在于，语言中的词或词组是天然的Token，并且是一维线性排列的。而视频除了具有时序性外，还具有长度和宽度，因此在Patch化之后，它们构成了一个由高维向量组成的三维空间。Sora通过一个压缩模型将这些三维空间处理成单维向量序列。

具体的实现细节尚未公开，我个人对视觉算法的原理研究较少，因此暂时没有进行深入的推测。

从视频到高维向量序列的转换可以被视为一种压缩过程，而目前的Transformer模型能够实现语言的高维向量序列与视频高维向量序列之间的相互转换，这在本质上与语言翻译并无太大差异。

同样，也可以从视频的高维向量序列还原出时空分布的三维Patch阵列，然后基于这个阵列使用扩散模型来生成视频。

目前公布的Sora内容大致如此，尚有大量的工程化方案未被披露，而且可能也不会公开。

Sora产品化能力

Sora能够基于静态图片生成动态图像，这一点虽然看似简单，但在内容创作中却极为实用。更令人兴奋的是，Sora能够基于单一图片创建向前或向后延展的视频内容，比如从一个终结画面出发，衍生出三种不同的视频故事线

Sora的视频到视频过渡技术同样令人印象深刻，其转场效果流畅自然，能够在不同视频场景之间实现无缝链接，除此之外，Sora还提供了基于语言控制的视频风格转换能力，允许用户将视频转换成卡通风格、未来风格或其他各种风格，这一点通过多种语言指令实现，每一种尝试都能带来令人满意的效果。

结合SD+controlNet的图像生成技术和一些lora方案，Sora的技术堆栈能够创造出无限的可能性。文章中提到，他们利用GPT4生成更高级的用户提示，如分镜和转场要求，以此与模型进行更有效的交互。

在Sora的帮助下，视频内容的制作成本可以大幅降低，即使是没有摄影基础的个人也能制作出高质量的作品，前提是需要有良好的讲故事技巧。这不仅推动了创作工具的发展，让每个人都有机会成为特定场景下的主角，而且还极大提高了广告领域的工作效率，使得高质量视频广告的生产变得更加快速和便捷。

尽管这些技术为文字和图片的创业生态带来了巨大的机遇，但其竞争优势的持久性还有待观察。在文字领域，知识库构成了一定的门槛；而在视频创作领域，如果依赖于OpenAI等外部接口，那么持久优势可能更多地依赖于对场景的深入理解和工程化能力。

总的来说，虽然Sora的技术无疑为视频制作领域带来了革命性的变化，但它并不意味着会彻底颠覆现有的短视频生态。Sora提供的是一种先进的视频制作工具，而内容的分发和制作工具本身是两个截然不同的领域。

总结

目前Sora还没有公测，其原因可能是计算成本非常高，想当初GPT开放时OpenAI的服务器也一度过载，更不用说视频计算。不过OpenAI拟融资7000亿美金进军芯片领域的新闻相信大家都有所耳闻了，如果在算力能用巨大突破，想来Sora的普及化也是指日可待的。对了，Sora之前开发了内测资格，感兴趣的小伙伴可以关注我的文章。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/花生_TL007/article/detail/261198