赞
踩
Sora官方地址: Sora
OpenAI Sora 详细的技术报告发布:https://openai.com/research/video-generation-models-as-world-simulators
2024年2月16日,OpenAI在其官网上面正式宣布推出文本生成视频的大模型 Sora。 这款名为Sora的新视频生成模型,能够根据文本指令创建现实和富有想象力的场景。用户可以基于编写的提示词,创建长达一分钟的栩栩如生的视频。
效果相当震撼。请看下面的视频:
提示词:
“一位时尚的女士在充满温暖发光的霓虹灯和动画城市标志的东京街道上行走。她穿着黑色皮夹克,一条长红裙和黑色靴子,背着黑色手提包。她戴着太阳镜和红色口红。她走路自信而随意。街道潮湿而具有反射性,营造出五光十色灯光的镜面效果。许多行人在四处走动。”
时尚的女人
(PS:截止2024年2月16日,OpenAI只向部分专业用户开放了Sora的访问权限。普通用户只能观看其发布的演示视频。然而,借鉴之前的案例,我们可以预见OpenAI首先会向 ChatGPT Plus 的付费用户提供这一服务。对于有意体验此服务的用户,如果您尚未注册或希望了解如何升级至 GPT Plus,可以参考下面的教程: 2024年最新开通ChatGPT Plus教程 ,一分钟完成升级和注册,解决没有国外信用卡等问题)
Sora具有惊人的创造力,可以构建丰富多彩、充满多个角色、独特动作、主题和背景细节的复杂场景。这个模型不仅能深刻理解物体在物理世界中的存在,还能准确描绘各种道具,塑造生动、富有表情的角色形象。更令人惊叹的是,Sora还能基于静态图像创作引人入胜的视频,为现有视频填充或扩展画面帧,呈现出生动而引人入胜的视觉体验。
Sora的应用范围极为广泛,无论是在教育教学、产品演示,还是内容营销领域,都能通过Sora实现高质量的视频内容创作。这一多才多艺的模型为不同领域提供了创新的可能性,为用户创造出引人入胜、令人印象深刻的视觉体验!
下面列举一些 OpenAI 官方发布的应用案例:
1.Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.
翻译:一个电影预告片,讲述了一个30岁的太空人冒险的故事,他戴着一顶红色毛织摩托车头盔,蓝天,盐沙漠,电影风格,35毫米胶片拍摄,色彩鲜明。
2.Prompt: The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.
翻译:镜头跟随在一辆带黑色车顶行李架的白色复古SUV后面,它在陡峭的山坡上加速行驶在一条被松树包围的陡峭土路上,轮胎上的灰尘飞溅,阳光照射在SUV上,在土路上加速行驶,给现场投下温暖的光芒。土路缓缓向远处弯曲,看不到其他汽车或车辆。路两边的树都是红木,到处都是成片的绿色植物。从后面可以看到这辆车轻松地沿着弯道行驶,看起来就像是在崎岖的地形上行驶。土路本身被陡峭的山丘和山脉包围,上面是晴朗的蓝天和稀疏的云层。
3.Prompt: Five gray wolf pups frolicking and chasing each other around a remote gravel road, surrounded by grass. The pups run and leap, chasing each other, and nipping at each other, playing.
五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐,周围都是草丛。幼崽们又跑又跳,互相追逐、互相咬咬,玩耍着。
4.Prompt:Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.
翻译:几只巨大的长毛猛犸象走过一片白雪覆盖的草地,它们长长的毛茸茸的皮毛在风中轻拂,远处白雪覆盖的树木和戏剧性的雪山,午后的光线与缕缕的云和远处的太阳创造了一个温暖的光芒,低相机的视角是惊人的,捕捉到了美丽的摄影,景深的大型毛茸茸的哺乳动物。
5.Interacting with the world. Sora can sometimes simulate actions that affect the state of the world in simple ways. For example, a painter can leave new strokes along a canvas that persist over time, or a man can eat a burger and leave bite marks.
翻译:与世界互动。Sora有时可以用简单的方式模拟影响世界状态的行动。例如,画家可以在画布上留下新的笔触,并随着时间的推移保持不变,或者一个人吃了汉堡后会留下咬痕。
6.Prompt: Historical footage of California during the gold rush.
翻译:加利福尼亚淘金热时期的历史影像。
7.Prompt: Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.
翻译:动画场景特写了一个毛茸茸的小怪物跪在融化的红烛旁。美术风格是3D和现实的,重点是照明和纹理。这幅画的气氛是一种惊奇和好奇,因为怪物睁大眼睛,张开嘴巴凝视着火焰。它的姿势和表情传达了一种天真和顽皮的感觉,好像它是第一次探索周围的世界。暖色和戏剧性灯光的使用进一步增强了图像的舒适氛围。
8.Prompt: Tour of an art gallery with many beautiful works of art in different styles.
翻译:参观一个艺术画廊,展示了许多不同风格的精美艺术品。
使用Sora非常简单,以下是使用步骤:
需要注意的是,截止2024年2月16日,OpenAI只向部分专业用户开放了Sora的访问权限。普通用户只能观看其发布的演示视频。然而,借鉴之前的案例,我们可以预见OpenAI首先会向 ChatGPT Plus 的付费用户提供这一服务。对于有意体验此服务的用户,如果您尚未注册或希望了解如何升级至 GPT Plus,可以参考下面的教程: 2024年最新开通ChatGPT Plus教程 ,一分钟完成升级和注册,解决没有国外信用卡等问题
OpenAI Sora 详细的技术报告发布:https://openai.com/research/video-generation-models-as-world-simulators ,下面列一些重点,感兴趣的小伙伴可以阅读原文哈
将可视数据转换成补丁
在较高维度上,OpenAI首先将视频压缩到低维潜在空间中,然后将其分解为时空补丁,从而将视频转化为补丁,就好比他们在处理视频时找到了一把魔法钥匙。这个钥匙可以把视频里的每一帧画面变得更小巧,但却保留了关键的信息,就好像把一个大礼物装进了小盒子一样。
然后,他们进行了一种“分解术”,就像是把一部电影拆成了一个个小场景。每个场景都像是电影里的一个独立小插曲,有自己的故事和画面。这让计算机更容易理解整个视频的内容,就像我们把一本小说拆成了章节一样。
最终,整个视频就像是由这些小场景组成的拼图,为计算机提供了一个更容易操作的“指南”。这项研究就像是为计算机教了一种新的“看视频”的方式,让它更懂得如何理解视频中的故事和画面。这种方法的发现有望让未来的计算机能更好地参与到我们创造的视频内容中。
Sora实际上是一种扩散型变换器模型(Diffusion Transformer) 。
Sora 是一个扩散变压器。变压器已经在多个领域展现出了显著的扩展性能,包括语言建模、计算机视觉和图像生成。
Sora 借鉴了 GPT 模型的成功,采用了 Transformer 架构,实现了前所未有的扩展性能。大模型可以生成各种细化文本内容,主要得益于精准的数据标记,统一了文本代码、数学和各种自然语言的不同模式。既然大模型有文本标记,那Sora当然也可以有“视频帧片”。
就好比是把视频和图像切成小块,每个小块就像GPT中的一个词语一样。通过使用这种统一的数据表示方式,我们成功地在更广泛的视觉数据上进行了扩散Transformer的训练,这些数据包括了不同时长、分辨率和画面比例的内容。
在 一个华丽的、历史悠久的大厅,一个巨大的潮汐波峰,开始崩溃。两名冲浪者,抓住时机,熟练地驾驭 波浪。
从这份技术报告来看,Sora更像是OpenAI的技术大集合,使用到了很多ChatGPT、DALL E3以及之前积累的技术沉淀,也是Sora能呈现出那么多超强视频技术的原因。
ChatGPT: 使用ChatGPT,Sora能够处理文本输入,可能用于生成场景描述、角色动作或其他与视频内容相关的文字。
DALL-E3: DALL-E3是一个生成图像的模型,通常用于将文本描述翻译成视觉元素。在这里,它可能负责将ChatGPT生成的文本描述翻译成图像元素,包括角色、道具、背景等。
视频融合到Transformer: Sora将视频信息融合到Transformer中,这可能涉及使用视频帧的矢量表示。这可以提供模型对视频内容的更全面理解。
训练视觉大模型: 最后,将这些矢量表示送入Transformer,可能进行监督学习或无监督学习,以训练视觉大模型。这个模型可以用于生成视频帧,以匹配输入的文本描述。
OpenAI Sora以其强大的功能和多样的应用领域,为用户提供了高效、创意丰富的视频制作体验,助力各行业创作者和开发者在其领域中取得更出色的成果。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。