赞
踩
今天分享的是AIGC系列深度研究报告:《AIGC专题:AGI里程碑时刻,Sora打造全球新标杆》。
(报告出品方:国泰君安证券)
报告共计:16页
来源:人工智能学派
0penAI 首个文生视频模型 Sora 发布,效果震撼实现 AIGC 领城的里程碑式进展。2024年2月16日0penAI发布文生视频模型Sora,AI视频生成能力实现跨越式发展,根据官方介绍,Sora 能根据文字指令创造出包含丰富细节的逼真场景和角色,并能够用多角度镜头生成一镜到底的 60s 长镜头。Sora 所生成的视频涵盖广泛的视觉数据类型和分辨率,还可以对视频色彩风格等要素精确理解,创造出人物表情丰富情感生动的视频内容。目前 Sora 尚未对公众全面开放,仅邀请部分测试者进行体验,但是0penAI CE0 在社交平台上展示了由网友提供文本描述生成的视频案例,展现了 Sora 在视频生成方面的强大能力,Sora 强大的视频生成能力一举推高了行业天花板,产业赋能的深度和广度有望超预期拓展。
Sora 文本到视频生成能力独一档,首先是灵活可变的持续时间、分章与纵横比。Sora 能够仅通过文本描述生成长达1分钟的连贯高保真视频,某种程度上对行业目前大概只有平均“4s”的视频生成长度形成了“碾压”之势,同时 Sora 具备出色的采样能力,无论是宽屏1920x1080p 视频、垂直 1080x1920 视频,还是介于两者之间的任何视频尺寸,它都能轻松应对,这样的训练给 Sora 带来了诸多好处:可以为各种设备生成与其原始纵横比完美匹配的内容;以原始长宽比对视频进行训练可以改善构图和取景。
Sora 拥有深入的语言理解能力和复杂场景与角色生成能力。Sora 能够准确解释提示并生成能表达丰富情感的角色,所生成的视频不仅保持了视觉品质,而且完整准确还原了用户的提示语:Sora 具能够生成具有多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景可以创造出生动的角色表情和复杂的运镜并且可以保持视频主体与背景的高度流畅性与稳定性,使得生成的视频具有高度的逼真性和叙事效果。
多角度镜头能力与物理世界模拟能力让眼见不再为实,AI生成视频的“欺骗性”大幅提升。Sora 可以在单个生成的视频内实现多角度镜头分镜切换符合逻辑且十分流畅,同时保持角色和视觉风格的一致性。这种能力对于制作电影预告片、动画或其他需要多视角展示的内容非常有用。不仅如此,Sora 还具备理解真实世界的能力,Sora 对于光影反射运动方式、镜头移动等细节处理得十分优秀,极大地提升了真实感。Sora 展示了人工智能在理解真实世界场景并与之互动的能力,它能够模拟真实物理世界和数字世界,如物体的移动、三维一致性和交互,这是朝着实现通用人工智能(AGI)的重要一步,揭示了继续扩大视频生成模型规模来发展高性能模拟器的前景。
较长视频的连贯性和对象持久性。视频生成系统面临的一个重大挑战 是在采样长视频时保持时间一致性。通过一次性为模型提供多个帧的 预测,OpenAI 解决这一具有挑战性的问题,即确保主体即使暂时离开 视野也保持不变。OpenAI 表示 Sora 通常能够有效地对短期和长期依 赖关系进行建模。例如,Sora 可以保持人、动物和物体的时空一致, 即使它们被遮挡或离开框架。同样,它可以在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观。
静图生成视频与文生图能力面面俱到。Sora不仅能够从文本生成视频,还能够从现有的静态图像开始,准确地动画化图像内容,或者扩展现有视频,填补视频中的缺失帧。Sora的图像生成功能不仅限于特定大小的图像,它可以根据用户需求,生成可变大小的图像,最高可达惊人的 2048x2048 分辨率。
充满想象力的强大视频编辑能力。Diffusion model启用了多种根据文本提示编辑图像和视频的方法。Sora 能零镜头地转换输入视频的风格和环境,为视频编辑领域带来了革命性的变革。Sora还能够在时间上向前或向后扩展视频。此外还可以使用 Sora 在两个输入视频之间逐渐进行连接,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。
Sora 也存在许多局限性。OpenAI 毫不避讳地在官网上展示出 Sora 的 缺陷,它无法准确模拟许多基本相互作用的物理过程例如玻璃破碎, 此外,在某些交互场景中 Sora 并不能总是产生正确的对象状态变化。 例如吃东西并非每次都能留下咬痕,还有其他诸多常见故障模式例如 长时间样本中出现的不连贯性或对象的自发出现,无法理解因果关系的具体实例,例如老太太吹完蜡烛开始鼓掌,但蜡烛其实还没有熄灭。
报告共计:16页
来源:人工智能学派
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。