赞
踩
在 2024 年 2 月 16 日,Open AI 宣布推出全新的生成式人工智能模型“Sora”。据了解,通过文本指令,Sora 可以直接输出长达 60 秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。
这意味着,继文本、图像之后,OpenAI 将其先进的 AI 技术拓展到了视频领域。OpenAI 亦表示,Sora 是能够理解和模拟现实世界的模型的基础,这一能力将是实现 AGI(通用人工智能)的重要里程碑。
对于 OpenAI 视频生成模型的出现,业内其实早有预期,但仍有人评价称“比想象中来得更快”,亦有人振奋地表示“我们真的看到新工业革命来临”。
Sora 官方网址:openai.com/sora
Sora论文网址:openai.com/research/vi…
目前OpenAI官网上已经更新了48个Sora生成的视频Demo,色彩艳丽,效果逼真。
2024年的真正红利点:文生视频。
用ChatGPT能力做视频文本对齐,将多个高分辨率视频素材进行降维处理,进行密集训练,最后大力出奇迹。
最终我们只需要一段提示词,就可以生存60s的1080p的视频。
另外,Sora还可以从静态图像生成动画,或者扩展现有视频,从而创建出更多的画面,保持角色和视觉风格的一致性。
该模型会混淆提示的空间细节,并且难以模拟复杂场景中的物理现象。
截止目前,Sora没有公开测试,也没有内测申请渠道,国内是没有渠道可以去尝试的。
下面信息仅供参考:
能力 | Sora | 其他 |
---|---|---|
架构 | Transformer | UNet为主 |
驱动方式 | 数据 | 图片 |
世界理解能力 | 强 | 弱 |
数字世界模拟 | 支持 | 不支持 |
世界互动能力 | 支持 | 不支持 |
3D运动连贯性 | 强 | 弱 |
物体一致性 | 强 | 弱 |
物体持久性/连续性 | 强 | 弱 |
文本理解 | 强 | 一般 |
运动控制 | 其他 | 提示词+运动控制工具 |
无缝连接能力 | 强 | 一般 |
视频到视频编辑 | 支持 | 部分 |
扩展生成视频 | 前/后 | 后 |
视频时长 | 60s | 2-4s |
原生纵横比 | 支持 | 不支持 |
清晰度 | 1080P | 最高4k(Runway) |
internal-api-drive-stream.feishu.cn/space/api/b…
据不完全统计,过去一年来全球AI生成视频类赛道的融资已经超过数十亿美金,其中大部分公司都以种子轮、A轮为主。
今年1月底,A16Z还专门针对AI视频生成领域做了一个全面的回顾和展望,并盘点了市场长超过20个明星产品。
可理解长达135个单词的长提示,准确解释用户提供的文本输入,并生成具有各种场景和人物的高质量视频剪辑。
利用Dell-E模型的re-captioning技术,生成视觉训练数据的描述性字幕,不及可以提高文本的准确性,还可以提升视频质量。
Sora不仅可以接受多样的提示词,还能接受已存在的图像和视频。
Sora具备出色的采样能力,从宽屏的1920x1080到竖屏的1080x1920,两者之间的任何视频尺寸都能轻松应对。
作为基于Transformer的扩散模型,Sora还能沿时间线向前或向后扩展视频。
Sora可以生成带有生成带有动态视觉变化的视频,任务和场景元素在三维空间中的移动会显得更加自然。
为了帮助大家更好的学习人工智能,这里给大家准备了一份人工智能入门/进阶学习资料,里面的内容都是适合学习的笔记和资料,不懂编程也能听懂、看懂,所有资料朋友们如果有需要全套人工智能入门+进阶学习资源包,可以在评论区或扫.码领取哦)~
声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。