赞
踩
如果喜欢,请点赞,收藏,关注我!
Sora,美国人工智能研究公司OepnAI发布的人工智能文生视频大模型(但OepnAI并未单纯将其视为视频模型,而是作为“世界模拟器” ),于2024年2月15日(美国当地时间)正式对外发布 。
Sora这一名称源于日文“空”(そら sora),即天空之意,以示其无限的创造潜力。其背后的技术是在OepnAI的文本到图像生成模型DALL-E基础上开发而成的。
Sora可以根据用户的文本提示创建最长60秒的逼真视频,该模型了解这些物体在物理世界中的存在方式,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。继承了DALL-E 3的画质和遵循指令能力,能理解用户在提示中提出的要求 。
Sora对于需要制作视频的艺术家、电影制片人或学生带来无限可能,其是OepnAI“教AI理解和模拟运动中的物理世界”计划的其中一步 ,也标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃 。
——百度百科
简单的说,Sora是一款根据用户提示词创建最长60秒高清视频的工具
Sora还具备根据静态图像生成视频的能力,能够让图像内容动起来,并关注细节部分,使得生成的视频更加生动逼真,这一功能在动画制作、广告设计等领域具有应用前景 。
Sora能够获取现有视频并对其进行扩展或填充缺失的帧,这一功能在视频编辑、电影特效等领域具有应用前景,可以帮助用户快速完成视频内容的补充和完善 。
可以使用Sora连接两个输入视频,在具有完全不同主题和场景组成的视频之间实现无缝过渡 。
能力 | 描述 |
---|---|
图像生成 | Sora可以生成各种尺寸的图像,分辨率最高达2048×2048 。 |
3D一致 | Sora可以生成动态运动的视频,随着相机的移动和旋转,人和场景元素在三维空间中一致移动 。 |
远距离连贯性物体持久性 | Sora通常能够有效地对短期和长期依赖关系进行建模,包括人、动物和物体的持久化,即使它们被遮挡或离开框架。同时,它还能在单个样本中生成同一角色的多个镜头,以保持其在整个视频中的外观 。 |
互动性 | Sora有时可以用简单的方式模拟影响世界状态的动作。例如一个画家可以在画布上留下新的笔触,并随着时间的推移而持续,或者一个男人可以吃汉堡并留下咬痕 。 |
模拟数字世界 | Sora可以模拟人工过程,例如电子游戏,并能够通过基本策略控制玩家,同时高保真地渲染世界及其动态 。 |
多机位 | Sora可以生成多机位、多角度的视频 。 |
目前并没有提及任何允许普通用户绕过公测流程的内部途径。 目前也只有定向为极少数的艺术家开放了Sora的使用权限。
但是 CEO Sam Altman也表示,可以成为红队测试人员。
红队测试人员:
由于必须经过充分安全测试后,Sora才有可能大面积开放,因此Sora需要招聘部分网络安全人员测试Sora系统是否含有安全漏洞或者是安全风险。
官方申请链接:OepnAI Red Teaming Network
虽然Sora暂时没法使用,但是可以先利用GTP4绘图替代
教程请点击原文链接
Sora是一种扩散模型,具备从噪声中生成完整视频的能力,它生成的视频一开始看起来像静态噪音,通过多个步骤逐渐去除噪声后,视频也从最初的随机像素转化为清晰的图像场景 ,其能够一次生成多帧预测,确保画面主体在暂时离开视野时仍保持一致 。
Sora采用与GTP模型相似的Transformer架构,OepnAI用Transformer结构替代Diffusion模型中常用的U-Net结构,提升了原来Diffusion模型在深度和宽度上的可扩展性,为视频模型增加输出时长奠定基础 。Transformer架构能够处理长序列数据,并通过自注意力机制捕捉数据中的依赖关系,从而提高模型的生成能力 。但为了解决Transformer架构在长文本和高分辨率图像处理上的问题,扩散模型采用更可扩展的状态空间模型主干替代了传统的注意力机制,从而减少了算力需求,并能够生成高分辨率图像 。
难以准确模拟复杂场景的物理原理,无法理解因果关系,混淆提示的空间细节,难以精确描述随着时间推移发生的事件
Sora存在不成熟之处,可能难以理解因果关系,多位人工智能领域人士表示,该问题可能因其概率模式的逻辑存有“硬伤”。加大训练量、增加训练数据与物理逻辑可改善该问题,但无法根治。想要真正突破最底层逻辑上的问题,因果关系是一条必经之路
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。