当前位置:   article > 正文

Sora这个风口,到底意味着什么,怎么利用?_sora应用场景

sora应用场景

Hi,大家好呀~
我是一枚对AI十分感兴趣的一枚程序员,一直在思考如何能够利用openAI技术,搞一搞自己的小副业。
去年2月,chatgpt一夜爆火。
没想到,今年2月,OpenAI又整了个大的。
一个叫Sora的AI视频工具,横空出世。

Sora 目前还在内测中,以 GPTs 的经验,大概率需要 GPT4 才能开通,感兴趣的同学可以看看我的 GPT4 .0直接用

Sora生成的图片

爆火范围,穿透科技圈、AI爱好者圈,朝着普通人迎面而来。
据说,很多做视频的,做剪辑的,瞬间就慌了,感觉饭碗要被砸了。
恐慌程度,甚至超过Chatgpt(感兴趣的同学可以看看我总结的使用说明书)面世时。
到底为啥呀?
今天,我们就来唠唠可能产生的影响。
(PS:仅代表个人观点和知识面的总结语思考,欢迎讨论纠错~)

一、Sora到底有多火?


1、央媒亲自下场报道:央视非常罕见的报道 OPENAI 的最新模型,甚至成立了专栏,专门邀请国内 AI 应用以及科学家进行圆桌讨论,讨论该模型的影响
image.png
2、全民狂热:不管是媒体铺天盖地的文章和技术测评,还是全民主动搜索意愿,都能说明大家都被他的效果震惊到了
微信指数:sora 最近这几天的热度已经超过了 gpt
image.png
百度指数也侧面反映了 sora 的狂飙
image.png
3、媒体阅读量
AI 自媒体-卡兹克,凭借 SORA 的公众号文章,一篇文章一天突破了百万阅读
image.png

二、 Sora到底是个啥?

2.1 如何使用?

咱不是搞技术的,就不试图分析技术原理了。我们只从呈现效果、生成难度来分析,这个东西有多牛掰。
大佬们用三个词总结Sora:60s超长长度、单视频多角度镜头、世界模型
三个词咋理解呢?看看下面这段gif,视频时长59秒。
一句话解释:用一段文字生成60s视频的工具。(Sora)

image.png

而给Sora的命令,只有111个字。
一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。
仔细看看这段提示词,你可能会发现,其中并没有明确提到镜头切换的指示。
然而,Sora却自动为我们带来了多角度的镜头变换,既有宽广的远景,又有细腻的近景,整个运镜流程宛如一部专业级的影片。这说明了什么?
这恰恰证明了Sora在深度学习了无数影片后,已经深刻理解了镜头语言的奥秘。
那么,究竟什么是“世界模型”呢?让我带你回到那个曾风靡一时的概念——“元宇宙”。
元宇宙的理念是创建一个与真实世界相互交织的虚拟世界,人们通过智能穿戴设备就能沉浸其中。然而,随着时间的推移,人们逐渐意识到模拟一个真实世界是多么的巨大挑战。
要构建这样一个世界,需要多少人力物力去创造数不尽的模型啊!更何况,当时的很多智能设备技术也还远远达不到要求,于是元宇宙的热度逐渐冷却。
但现在,Sora为我们带来了全新的希望。它告诉我们:只要给它一段话,它就能为你自动生成一个三维的世界模型。不论是樱花飘洒的东京街头,还是充满未来感的赛博朋克世界,甚至是一家人欢聚一堂的生日派对,所有这一切,都只需要你的一句话。Sora用它的实力告诉我们,创造虚拟世界不再是一个遥不可及的梦想。

2.2 什么原理?(可以跳过)

非技术向的同学可以先跳过,这里简单介绍 SORA 的原理,感兴趣的同学,我会在后面出一篇文章介绍技术原理和相关的论文。
下面的原理来源于官网的技术报告,感兴趣的同学可以直接阅读原文:Video generation models as world simulators (openai.com)

核心 1:视觉数据(图像/视频)表示成成「patch」

借鉴与大语言模型通过 token 来处理数据,SORA 把视频数据进行统一编码,引入了 patch 的概念。patch 在技术报告中被证明了是一种很好的「表征视频/图像数据」的一种表示方法
image.png

核心 2:视频压缩网络

这是一种可以减少视频数据维度的神经网络,通俗理解,就是把高维数据降到低维,可以减少训练量和推理的成本。最终是成对的,一个是编码器,另一个是解码器,目的是为了在训练的时候减少成本
编码:
输入:原来的视频
输出:在潜空间(latent space)的视频表示
解码
输入:在潜空间(latent space)的视频表示
输出:原来的视频

核心 3:时空的潜在(latent)patch 表示

类似 token 在 llm 是最小单元一样,在视频中,patch 就是最小处理单元。这里需要注意的是,作者支出,图像就是一帧的视频,这里蕴含的意义很大,意味着图像和视频一样,都可以用来训练和处理!!

核心 4:Transformer

Sora 是一个 diffusion 模型,通过接收带有噪声的图像块作为输入,训练预测清晰的图像块。
那么在图像/视频领域,最新处理单元变成了 patch,输入就是 带有噪声的 patch,输出组成视频块的 patch。
而这里作者发现,大力出奇迹在视频模型仍然使用!

2.3 技术文章科普

后续技术补充讨论:

2.4 Sora和市面上其他模型的区别

最大的区别就是,SORA 可以生成 1 分钟的稳定长视频,而且生成的画面质量远高于其他模型
大家可以通过以下两个维度自己去判断 Sora 模型和其他模型的区别

  • 生成画面的质量:Sora 肉眼可见的生成了非常高质量的的画面,无论是时间上的连续性还是空间上的连续性(不同分镜下人物/物体的统一性)
  • 视频的长度:Sora 大概是 1min,而其他模型基本是 3-4s

Sora:什么 pika,runaway 的,都给我跪下!
image.png

三、 Sora能带来什么?

3.1 从chatgpt带来的启发

chatgpt是语言层面的应用很多,已经可以自动生成文案,而且是多语言的文案。相当于解放了思维的一维层面。根据目前的应用,主要包括以下几个方面:
1. 文本生成
用于生成新闻、博客、报告等内容。这种技术可以根据输入的数据、模板和语言模型生成人类可读的文本。文本生成技术还可以用于生成代码、诗歌、小说等各种不同类型的文本。主要是可以节省人力,并且可以生成大量的高质量的文本。
2. 自动文摘
对大量文本内容进行简化、概括的技术。采用机器学习和自然语言处理方法,识别文本中的关键信息,生成简明、准确的摘要。可以大大缩短文本阅读时间,提高效率,帮助用户快速了解文本内容。它在新闻、科技、商业等领域都有广泛应用。
3.语音合成
通过使用计算机算法和语音数据库来生成人类般的语音。语音合成可以用于语音导航、机器人语音交互、语音识别等应用。现代语音合成技术已经取得了巨大的进展,并且在不断提高语音质量方面也取得了显著的成果。比如大家在各个小视频里听到的合成声音,已经比原来要真实很多了。
4 对话生成
回答各种问题,并生成相关的文本内容。对话生成技术在客服、智能助手、帮助中心等领域有着广泛的应用。
5语言翻译
chatgpt就是个语言模型,因此翻译是它的强项,很多博主做过测评,而且官网也有介绍,这个功能是文学、外交、科技等领域的重要工具,也是现代国际化日益增长的需求。
感兴趣的朋友可以参考如下文章查看具体的应用示例,可以试用chatGPT3.5,增加深入的了解 :
https://www.yuque.com/lingganjiao/obgqg7/eofegz1fy7lmlkes
总之,我们可以看到AI对互联网的影响有多大。

3.2 谁的危机?商机就在哪里!

从chatgpt的崛起之路,我们可以预见到Sora将对传统影视公司、虚拟拍摄公司、特效制作和视频广告等领域带来前所未有的挑战,这种挑战几乎是颠覆性的。想象一下,以往那些需要大量人工拍摄和剪辑的空镜头,现在只需Sora和一段文字,便能轻松搞定。
对于那些制作场面宏大的战争剧或历史剧来说,以往为了营造恢弘气势,往往需要大量的群演。但现在呢?有了Sora,或许群演将成为过去式,那么这些人的饭碗岂不是要受到影响?
再来说**说剪辑师。**很多人每天的工作就是在各大视频网站找素材,然后按照要求剪辑。但有了Sora,这一切都变得如此简单,只需输入文字,便可自动生成视频,那么剪辑师的工作是不是也要变得多余了呢?
再比如小说推文博主,以前他们需要四处找视频素材,但现在,只需输入小说剧情,Sora就能为他们生成相应的视频。说不定,小说作者自己就能轻松生成短剧了。
当然,每个变革都会带来不同的声音。有人可能会对此感到不安,但也有人会热烈欢迎。
一些做非个人IP类自媒体博主。比如宠物博主用AI生成猫猫图,然后拼接出一个剧情。比如,猫猫打工、狗狗点外卖、猫猫偷鱼、鹦鹉送外卖、猫猫谈恋爱等。猫、够、鹦鹉不是真的,情节是虚构的,图片素材是假的,只有变现是真的。以前,做一篇内容,他需要生成10~15张图,才能变成一个连贯的剧情。如果有了sora,他就不用这么费事了,只需要一段文字,直接生成视频,剧情还更连贯,跟看动画片似的。说不定还能把自己的猫猫,变成像‘熊出没’一样的IP。
如果有了sora,这些都用不上了。小说剧情一输,视频剧情就出来了。说不定,小说作者自己就能生成短剧了。

所以,Sora的出现,无疑为整个影视行业带来了全新的变革。它让我们看到了技术的力量,也让我们思考,在这个变革的时代,我们应该如何适应和把握机遇

四、普通人该咋办?

每每次新技术的浪潮席卷而来,总会伴随着短暂的混乱与不安,仿佛整个社会都在经历一场未知的震荡。
而这次,AI技术的迅猛发展,更是直接触及了无数打工人的敏感神经。企业追求的降本增效,似乎将我们推向了边缘,而AI则成为了他们眼中的“增效”利器。
然而,我们真的只能被动接受这一切吗?面对这样的变革,我们是否只能感到恐慌、抵触,甚至愤怒?答案显然是否定的。
我们不应沉溺于无用的情绪宣泄,更不应试图去干预那些我们无法控制的事物。这样做只会让我们陷入无尽的痛苦与挣扎。与其在抱怨与不满中度过,不如主动拥抱这个新时代,发掘并发挥我们作为人类的独特优势。
在这个充满变革的时代,我们需要更加明智地看待AI技术的发展。它并不是我们的敌人,而是我们前进道路上的伙伴。
在与AI打交道一年后,我给自己了3条策略:

1、拥抱AI,关注AI发展,勇敢迎接变革

现在,AI的发展正处于一个风起云涌的混战期,市面上的工具多得让人眼花缭乱。尽管AI无疑是未来的必备技能,但我必须提醒你,不要盲目跟风购买各种课程。例如,最近备受争议的某位美术博士的AI课,就引发了广泛的争议和批评。
对于大多数普通人来说,现在最重要的是密切关注AI的发展动态,深入了解AI的应用领域。一旦你找到了与自己相关的部分,再投入时间和金钱去深入学习也不迟。
如果你对AI还一知半解,不清楚市面上有哪些热门的AI工具,更不知道它们能为你解决什么问题,那么我强烈建议你参加知乎知学堂的这场AI扫盲课。只需2小时,仅需1毛钱,你就能全面了解当前AI的发展状况,以及各类工具的实际应用。课程将涵盖9大办公场景,介绍20+主流AI工具,无论你是需要写作、设计还是制作PPT,都能找到合适的工具。
在全面了解了AI的全局之后,你再根据自己的需求决定是否要深入学习。这是一场千载难逢的机会,让你站在AI浪潮的前沿,不被时代淘汰。点击下方,立即开启你的AI学习之旅!记得添加工作人员,听完直播还有超值大礼包等你来领!↓↓↓
AI工具提效训练营

推荐阅读
相关标签