赞
踩
AI之Sora:Sora(文本指令生成视频的里程碑模型)的简介(能力/安全性/技术细节)、使用方法、案例应用之详细攻略
导读:Sora 是OpenAI研发的一个可以根据文字描述生成视频的AI模型。它的主要特性、功能以及OpenAI在安全和应用方面的策略的核心要点如下所示:
核心功能
>> Sora可以根据文字描述直接生成视频,这种能力可以帮助人们用文字来传达想法和创造内容。能够根据用户提供的详细文字描述生成符合描述要求的视频。
>> Sora可以生成长达一分钟的视频,保证视频质量和符合用户描述。它还可以扩展已有视频为更长时间。
>> Sora不仅可以生成单个视频,还能够将已有视频或图片进行延续和补全, 确保目标即使暂时消失在视线之外也保持不变。
>> Sora可以生成包含多个场景和角色的复杂视频,角色表达会贯穿始终。它也可以基于图片生成视频。
核心技术
>> Sora采用类似GPT的Transformer网络结构,它可以处理不同时长、分辨率和格式的视觉数据,可以很好地体现出深度学习模型在视觉领域的应用前景。
>> Sora采用DALL-E 3的重新描述技术,能够更好地根据用户文字描述中的细节生成视频内容。
>> OpenAI将进一步开展安全测试,同时构建检测模型识别生成视频的真实性。在产品化前将采取一系列措施防止滥用。
未来与影响
>> OpenAI正在与相关机构合作,通过对抗测试来提升Sora识别误导内容和存在偏差的能力,以确保安全应用。OpenAI将与政府、教育机构等合作,研究如何将该技术应用于更多积极场景,同时防止滥用。
>> Sora可视为实现通用人工智能的一个里程碑,它可以更好地理解和模拟现实世界。将来Sora可能会用于开发更高水平的AI,例如通用人工智能。这需要不断完善技术并学习用户实际应用情况。
总体来说,Sora代表了视觉语言模型在视频生成领域的重要进步。它同时也将会面临一些技术挑战,例如复杂场景中的物理模拟效果需要进一步改进。OpenAI将持续跟进Sora的安全性研究工作。
目录
AI之Sora:Sora(文本指令生成视频的里程碑模型)的简介(能力/安全性/技术细节)、使用方法、案例应用之详细攻略
VGM之Sora:OpenAI重磅发布一款“炸天”的视频生成模型—《Video generation models as world simulators视频生成模型作为世界模拟器》翻译与解读
Prompt: Historical footage of California during the gold rush.淘金热时期加州的历史镜头。
Prompt: A cartoon kangaroo disco dances.一只卡通袋鼠跳迪斯科。
Prompt: Step-printing scene of a person running, cinematic film shot in 35mm.一个人跑步的步印场景,35mm胶片拍摄
Prompt: Basketball through hoop then explodes.篮球穿过篮筐然后爆炸。
弱点:在这个例子中,Sora未能将椅子建模为刚体物体,导致不准确的物理交互。
弱点:模拟对象和多个角色之间的复杂互动对模型来说通常是具有挑战性的,有时会导致幽默的产生。
基于transformer 架构、统一数据表示(基于patch的小数据集合)
https://yunyaniu.blog.csdn.net/article/details/136133491
https://yunyaniu.blog.csdn.net/article/details/136133843
2024年2月16日,OpenAI重磅发布一款“炸天”的视频生成模型—Sora。Sora是一种人工智能模型,从文本创建视频,可以根据文本指令创建逼真和富有想象力的场景。本页所有视频均由Sora直接生成,未经修改。
我们正在教人工智能理解和模拟运动中的物理世界,目标是训练模型,帮助人们解决需要与现实世界互动的问题。
介绍Sora,我们的文本转视频模型。Sora可以生成长达一分钟的视频,同时保持视觉质量并遵守用户的提示。
原视频地址:https://cdn.openai.com/sora/videos/tokyo-walk.mp4
原视频地址:https://cdn.openai.com/sora/videos/wooly-mammoth.mp4
原视频地址:https://cdn.openai.com/sora/videos/mitten-astronaut.mp4
原视频地址:https://cdn.openai.com/sora/videos/big-sur.mp4
原视频地址:https://cdn.openai.com/sora/videos/monster-with-melting-candle.mp4
今天,Sora已经开始向红队成员提供服务,以评估危害或风险的关键领域。我们还向许多视觉艺术家、设计师和电影制作人提供了访问权限,以获取如何推进模型对创意专业人士最有帮助的反馈。
我们正在尽早分享我们的研究进展,以便开始与OpenAI之外的人合作,并从他们那里获得反馈,让公众了解即将出现的AI功能。
原视频地址:https://cdn.openai.com/sora/videos/gold-rush.mp4
原视频地址:https://cdn.openai.com/sora/videos/zen-garden-gnome.mp4
原视频地址:https://cdn.openai.com/sora/videos/closeup-of-womans-eye.mp4
原视频地址:https://cdn.openai.com/sora/videos/dancing-kangaroo.mp4
原视频地址:https://cdn.openai.com/sora/videos/lagos.mp4
原视频地址:https://cdn.openai.com/sora/videos/petri-dish-pandas.mp4
原视频地址:https://cdn.openai.com/sora/videos/stack-of-tvs.mp4
原视频地址:https://cdn.openai.com/sora/videos/big-eyed-fluff-ball.mp4
Sora is able to generate complex scenes with multiple characters, specific types of motion, and accurate details of the subject and background. The model understands not only what the user has asked for in the prompt, but also how those things exist in the physical world.
Sora能够生成具有多个角色、特定类型动作和精确主题和背景细节的复杂场景。该模型不仅了解用户在提示中所要求的内容,还理解这些东西在物理世界中的存在方式。
原视频地址:https://cdn.openai.com/sora/videos/suv-in-the-dust.mp4
原视频地址:https://cdn.openai.com/sora/videos/train-window.mp4
原视频地址:https://cdn.openai.com/sora/videos/amalfi-coast.mp4
该模型对语言有深刻的理解,使其能够准确地解释提示,并生成表达充满活力的情感的引人注目的角色。Sora还可以在单个生成的视频中创建多个镜头,这些镜头准确地延续了角色和视觉风格。
原视频地址:https://cdn.openai.com/sora/videos/art-museum.mp4
原视频地址:https://cdn.openai.com/sora/videos/tokyo-in-the-snow.mp4
原视频地址:https://cdn.openai.com/sora/videos/flower-blooming.mp4
Weakness: Sora sometimes creates physically implausible motion.
原视频地址:https://cdn.openai.com/sora/videos/backward-jogger.mp4
Weakness: Animals or people can spontaneously appear, especially in scenes containing many entities.
原视频地址:https://cdn.openai.com/sora/videos/puppy-cloning.mp4
Weakness: An example of inaccurate physical modeling and unnatural object “morphing.”
原视频地址:https://cdn.openai.com/sora/videos/basketball-explosion.mp4
Weakness: In this example, Sora fails to model the chair as a rigid object, leading to inaccurate physical interactions.
原视频地址:https://cdn.openai.com/sora/videos/chair-archaeology.mp4
Weakness: Simulating complex interactions between objects and multiple characters is often challenging for the model, sometimes resulting in humorous generations.
原视频地址:https://cdn.openai.com/sora/videos/grandma-birthday.mp4
在将Sora应用于OpenAI的产品之前,我们将采取一些重要的安全措施。我们正在与红队合作,这些红队成员是针对误导信息、仇恨内容和偏见等领域的专家,他们将对模型进行对抗性测试。
我们还在构建工具来帮助检测误导性内容,比如检测分类器,它可以判断视频是是否由Sora生成的。如果我们在OpenAI产品中部署该模型,我们计划在将来包含C2PA元数据。
除了开发新技术为部署做准备外,我们还利用了我们为使用DALL·E 3的产品构建的现有安全方法,这些方法也适用于Sora。
例如,一旦投入OpenAI产品中,我们的文本分类器将检查并拒绝违反我们使用政策的文本输入提示,例如那些请求极端暴力、性内容、仇恨图像、名人肖像或他人IP知识产权的提示。我们还开发了强大的图像分类器,用于审查生成的每个视频帧,以确保其符合我们的使用政策,然后再向用户显示。
我们将与全球的政策制定者、教育工作者和艺术家进行交流,了解他们的担忧,并确定这项新技术的积极应用案例。尽管进行了广泛的研究和测试,但我们无法预测人们使用我们技术的所有有益方式,也无法预测人们滥用它的所有方式。这就是为什么我们相信,随着时间的推移,从现实世界的使用中学习是创建和发布越来越安全的人工智能系统的关键组成部分。
提示:镜头正对着意大利布拉诺五颜六色的建筑。一只可爱的dalation从一楼的窗户往外看。许多人沿着建筑物前的运河街道散步或骑自行车。
原视频地址:https://cdn.openai.com/sora/videos/italian-pup.mp4
提示:一只可爱的快乐水獭自信地站在冲浪板上,穿着黄色救生衣,沿着绿松石般的热带水域骑行,附近是郁郁葱葱的热带岛屿,3D数字渲染艺术风格。
原视频地址:https://cdn.openai.com/sora/videos/otter-on-surfboard.mp4
提示:这张变色龙的特写照片展示了它惊人的变色能力。背景是模糊的,吸引人们注意到动物引人注目的外表。
原视频地址:https://cdn.openai.com/sora/videos/chameleon.mp4
Sora是一个扩散模型,它从一个看起来像静态噪声的视频开始,然后通过许多步骤去除噪声来逐渐改变它。
Sora能够一次生成整个视频,或者延长生成的视频使其更长。通过赋予模型一次许多帧的预见能力,我们解决了一个具有挑战性的问题,即确保一个主题即使暂时消失在视野之外也保持不变。
与GPT模型类似,Sora使用transformer 架构,具有出色的扩展性能。
我们将视频和图像表示为称为patch的较小数据单元的集合,每个patch都类似于GPT中的令牌。通过统一我们表示数据的方式,我们可以在比以前更广泛的视觉数据上训练扩散转换器,跨越不同的持续时间、分辨率和长宽比。
Sora建立在过去对DALL·E和GPT模型的研究基础上。它使用来自DALL·E 3的重捕获技术,该技术涉及为视觉训练数据生成高度描述性的标题。因此,该模型能够更忠实地遵循用户在生成的视频中的文字指令。
除了能够仅从文本指令生成视频外,该模型还能够接受现有的静止图像并从中生成视频,并精确地将图像内容动画化,并关注小细节。该模型还可以接受现有的视频并对其进行扩展或填充缺失的帧。在我们的技术报道中了解更多信息。
Sora是能够理解和模拟现实世界的模型的基础,我们相信这一能力将是实现AGI的重要里程碑。
更新中……
更新中……
更新中……
更新中……
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。