当前位置: article > 正文

sora的理解_sora csdn

作者：不正经 | 2024-02-22 23:48:18

踩

sora csdn

1、背景

近期, openai紧跟Runway、 Google、Meta等公司, 发布了视频生成模型Sora, 全面进军视频领域。官网的视频效果炸裂，连贯性优秀，生成视频时长可达60秒，但模拟复杂物理场景仍有瑕疵。相对Pika、Runway的效果还是有进一步提升。考虑到这一技术的风险性，目前sora暂不开放。

2、sora模型的介绍

虽然sora没有公布很多训练细节，基础模型还是基于diffusion模型，然后引入大语言模型transformer架构，形成扩散型变换模型（diffusion transformer)。

（1）、首先将视频作为原始输入，再压缩到一个低维潜在空间中，然后将这种表现形式分解成时空区块，从而将视频转换为区块。

（2）、为了解决原始视频的参次不齐的问题，引入patch的概念（灵感来源于大语言模型的），sora还专门为此训练一个视频压缩模型用于降低视觉数据维度的网络。将视频在空间和时间都进行压缩。sora在压缩的数据进行训练和生成视频。最后利用专门的解码器将生成的潜在表示映射回到像素空间。

（3）、使用不同的像素、尺寸、时间长度（内容保持一致）进行大量训练。

（4）、增强视频和图片对语言理解，利用了GPT技术对视频数据进行标注和文本对齐，同时将用户的简短提示转换成更详细的提示，然后发送给视频模型，使得很简单的prompt也可以生产好的视频。

（5）、除了支持语言，还支持图像和视频进行扩容，支持不同视频进行融合。也支持生成图片，因为图像本质上是单帧的视频。

3、sora的影响和未来方向

sora出现，也引发一众人的发表和大佬发言。对于整个科技界影响比较高。从长期来看，对自媒体、广告、电影等影视行业有很大的影响。

普通怎么参与这场科技盛宴，不要只做时代进步的拉拉队呢？

（1）、股票，基金：这个大家接触最快的赛道，但是风险比较高，前段之间英伟达因为AI的大爆发，市值超过了亚马逊。注意关于类似的科技股（amd）。

（2）、注册sora相关的域名和商标等。

（3）、套壳：sora大概率也会开放api的方式，并且国内一般访问不了，先把用户吸引进来。

（4）、ppt，文章等达人，传播一些技术热点文章。

本文内容由网友自发贡献，转载请注明出处：https://www.wpsshop.cn/w/不正经/article/detail/132096