赞
踩
本文由Markdown语法编辑器编辑完成。
2024年2月16日凌晨(美国时间2月15日),OpenAI发布了“文生视频”(text-to-video)的工具,Sora。整个世界再次被震撼了。人类用无数种语言,在全球的社交媒体上惊呼:现实,不存在了。
https://openai.com/research/video-generation-models-as-world-simulators
![](https://img-blog.csdnimg.cn/direct/d8780566a4e244d78ac6db9d02e74a85.jpeg#pic_center
看到sora发布的这些精美的视频,谁能不为之惊讶呢!
Sora就像是一个已经完全理解了这个世界的基本的运行规律的专业人士。
在第一幅视频截图中,
Sora知道了在潮湿的街道上,街道上面的水会将附近的街景产生倒影;女士的戴的眼镜,也可以反射她看到的景象;而且随着她在街道上不断地往前走动,她眼镜里面的影像也在随之发生变化;
在第二幅视频截图中,
Sora知道了一个老人在啃了一口汉堡后,那个汉堡的相应位置,会留出一个咬痕;
在第三幅视频截图中,
Sora就像拿了一个摄像机,在跟拍一下,从远到近,而且一路跟拍着这对情侣,漫步于两边都是樱花的街头。
…
在一年前,发布chatgpt时,人们还认为人工智能能完成和人类的对话已经很了不起了;接着Run away, Pika, 已经可以根据文本,生成4 ~ 十几秒的视频,已经又是跨越式的进展了。
结果,OpenAI发布的Sora, 直接就可以生成1min长度的视频,而且效果和质量都是如此的精良。怪不得让很多行业大咖都惊讶不已,迅速出圈。
作为程序员的我们,当然不能仅仅跟着惊讶,还是需要了解一些内部的工作原理。
恰逢,润总在他的访谈中,邀请到了百姓AI的创建人建硕,一起来了一次3个小时的探讨,主题就是:“Sora的到来,到底意味着什么?” 访谈中,润总老师,代表他自己和很多观众,提出了很多很多的问题,而且都一一的进行了细致的探讨。我在敬佩两位老师的渊博知识外,也希望大家能够了解其中的一些细节。因此,对这次访谈的内容,进行了一些摘录。
以下便是访谈的一些摘录。
下面分别用R(润)和S(硕)代表两位老师的观点。
R: 如何看待Sora?
它厉害,大家都知道它厉害,它厉害在什么地方,它为什么这里厉害,
技术文档,给出了一些实现的细节。但是,还有一些,只能是猜测的。
S: 看别人使用,和自己使用,差别很大。
AI制作视频,其实之前已经有很多铺垫,但是没有出圈。
其实非常多的技术,需要出圈。可能都是很偶然的。比如博客的出圈,是木子美;iPad出圈,是因为切水果,愤怒的小鸟的游戏等;
那么Sora到底厉害在哪里呢?
这就要说明一下它的实现了。
如果是用摄像机拍摄。比如,拍摄我们两个人坐在这里,喝水喝聊天。其实摄像机,只需要真实的把画面中的内容,记录下来即可。它只是做了一个记录的工作。至于拍摄的内容,它都是符合世界规律的,是受物理的各种规律支配的。
但是,如果是用软件来虚构视频,它就需要理解物理规律。
你告诉我,如果这些视频是Pixar(乔布斯创办的影视公司)做出来的,我一定都不惊讶。
因为这些视频,3d建模都能做出来,一点都不惊讶。
世界模型:用建模的方式,在虚拟空间中,把世界建好。
比如之前很多的动画电影,《玩具总动员》,它里面的情节,我们看起来都是符合真实世界的物理规律的。是因为这些都是人设计好的,这些规律是存在了人的脑海中,然后当成了一条规律,写进了3d建模软件中。
正是因为这个原因,过去用3d建模的软件来做一个视频,需要的算法很大,需要技术人员投入很多,将各种各样的规律写进软件,才可以建构出相对真实的世界。因此视频的成本也很高。
而现在Sora发布的视频,不需要人类提前把规律写进去,是AI自己学会的。
OpenAI同步发布了一个技术文档,来介绍视频生成的技术,文档的名称是:《Video generation models as world simulators》,翻译过来大概是,视频生成模型,作为世界模拟器。
这里要注意两者的区别。
如果是Adobe的全家桶软件,它们是:世界模型作为世界模拟器;
OpenAI的sora, 是: 视频生成模型作为世界模拟器;
=================================================================
关于视频中,一个老人咬了一口汉堡,留痕。
R: 人工智能,其实一直存在两个学派:符号派 VS 联结派。
符号派认为,智能是通过了解了很多的规律和符号,然后来认识这个世界的;比如学习语言和说话,我们了解了主谓宾,副词,状语等各种符号;
联结派认为,智能是由于很多神经元的联结进而产生的。
就好比我们人类学习语言,其实就是从小到大,听得多了,自然就会说了。
所以事后证明,符号派是错误的;联结派,完全占据了人工智能的主流。
人类的神经元,860亿条连接。
神经网络:Neural network.
只有牛顿总结过,三大定律
一种是可描述的,一种是不可描述的。
人类早就用不可描述的模式,认识世界。
拿杯子,我知道拿有水的,和没有水的杯子,重量不同。
大模型,大在什么地方?
OpenAI的信仰Scaling, 就是大,规模一定要大,大力出奇迹。
它的参数数量,从600万,到60亿,600亿,再到1750亿个参数。
=====================================================================
解读一下视频生成的原理?
Midjourney.
非常非常长的技术栈。
假设大家已经知道,从一段文字生成一张图片。
戴着一个帽子的猫。
37:00
描述 -> 图片。
生成视频的挑战。
视频,是连续的图片。
帧和帧是分开生成的,但是噪音很大。没办法保持稳定。
Sora的特征:3d卷积网络。
它不是一帧一帧切,还是16张切。
Square -> cube
X,y -> x,y,t
保证了在时间上的连续。不会有跳动。
刘润总结:
Space time patch. 时空的概念。时间上的连续性。
Unet模型:特征提取到最小,再一层一层还原。
它要求输入的图像,是大小一致的。
训练的时候,把图像都设置成512*512.
OpenAI:
Unet -> transformer.
输入的序列,长度是变长的。
不挑食,没有对视频进行压缩,裁剪。
对视频的很多确定性的要求,都去掉了。
Diffusion model -> Transformer model
Diffusion model:
文字怎么生成图片?
电子信号由于布朗运动,高斯噪音。不含任何信息的噪音。
噪音,随机数
一张图片,加一些噪音,加一些噪音,变成高斯白噪音。
预测,加了哪个噪音,生成了这样的图片。
赶紧调整它的参数。
从噪音,再如何回到图片。
52:50:
刘润总结:
Diffusion model: 扩散
一滴墨水,滴到玻璃杯。-> 扩散 -> 均匀的浅蓝色。
扩散
加噪音:是数据集,然后去训练。怎么减噪音,这个叫训练。
去噪音
把图变成白噪音,再用白噪音还原出图。
Sora: diffusion + transformer(google的论文写的)
30亿个参数,暴力美学。
高考的分数。很多题,是你的语文,数学,英语成绩。
单向的过程。
680分,你能帮我生成它的答卷的分数。
-刘老师,语文,数学超级好,化学
语文147, 数学:149, 化学:135. ……
那部分强,那部分弱,就可以
不了解原理,看成是哲学。
61:47 总结:
AI: 算法,算力,数据。
Diffusion + Transformer. 能够生成不受条件限制的视频。
大量的算法,30亿的参数。
很多显卡,电力,数据集。
给世界带来什么影响?影响什么行业。
忘了自己为什么有这份工作?
现在有的工作,是因为技术的发展,计算机的发展。
凡是我出身前的技术,都是世界的一部分;
凡是25岁以前的技术,都是改变人类的;25岁以后的技术,都是邪恶的。
完全来自自己所处的立场。
视频制作行业,大大的利好。
Sora的出现,当做是Adobe软件的一次大大的升级。
高抽象度,低抽象度
构思,段落,句子,写出来,钢笔写出来。
工程师一条线,建筑工人一身汗。
高抽象度,低抽象度。
所有人都是懒的。
凡是机器能干的工作,我们就尽量不干。不要和计算机吃醋。
影视行业:短视频,长视频行业。
哪些是低,哪些是高抽象度的。
剧务
浙江的绍兴,中国的横店,世界的义乌
今天插秧的人,明天不一定坐到总控室。
时代的进步:淘汰一部分,然后让另一部分成长起来。
替换。
个体的关怀:
下岗女工:退休
你帮我解释一下,为什么你之前每天辛勤的劳动,却只能换来一辆自行车;但现在却可以换来30辆自行车。
是因为你的努力,还是因为把你挤下岗的自动纺织机。
82:10
科技的进步:一切可以提高生产效率的,都叫科技。
整个社会的总财富增加,然后社会,国家,制度再通过一种分配机制,
美国:人工智能税。
财富增加,都会有自动分配的机制,不见得均匀分配。
我不想等社会的分配,我想抓住机会。
学习:上一代人,和我们这一代人,学的不一样。
微软学得很多,都没用了。
我们必须学会用promt, 跟大语言去交流。
影视行业的从业人员:
你已经是佼佼者了。本身就是一个爱学习的人。把它理解成,一个软件的升级版本。
忆苦思甜。
同样一份工作,越来越顺手。
学习的前提:不要闹脾气。
武僧遇到洋枪队。
武僧,跟洋枪较劲。
保持开放度和灵活性。
你的工作是,生成视频。而不是用工具。
90:00
未来人人都可以当导演。说明这个事情越来越难了。
人人都能做的话,我为什么要请你。
什么不会变?商业的本质,稀缺性,供给。
每次的技术变革,都是一次反思的机会。我们的工作还稀缺吗?
有的职业:是因为人人都能做,所以消失了。电梯操作员,售票员等;
有的职业:所有人的水平都提升,这个行业会变大。
程序员:汇编 -> 高级语言
20万 -> 1000万 -> 5亿
基数变大,越来越不稀缺了。
需求越大了。
比起20年,跟计算机无关的工作,都跟计算机有关了。
电视的带宽:带宽增加,网站变得更快。
4k, 8k, ……
效率的提升,不是简单的提升。是指数级的提升。
程序员,带宽,激发了本来增长的需求。在更大的赛道上。
选择职业:孩子应该学什么?
凡是受到chatgpt冲击的行业,必将走向繁荣,一定要冲进去。
凡是没有受到,躲得远远的。
程序员:前端 framework.
Vue, react.
活变得越来越多。
婚礼:后面生成一个视频。
井喷一样的需求增长。
视频生成。大量的需求,会井喷式发展。
四大的审计师,理发师。
视频制作员,不一定服务电影,可以服务抖音,tiktok.
去年讨论的时候,还是文本生成,是不是记者不需要了。
个人的建议:
对编程感兴趣,一定要学。
人生收益:三四年级,学了计算机。
娃娃,被抓去学电脑。
计算机,第一堂课,26个字母。
小学,中学,大学学得,都没用。
带你进了计算机这个赛道。
让自己的孩子,保持在主航道。
人工智能主航道。
医学:计算机辅助蛋白质。
并没有改变,医生看病的工作。只是工具在变。
8年之后还会出现什么,无法预测。
编程,数学,主航道,跟人工智能对话的技术。
人工智能,开到汽车,开到生命科学,保持在主航道。
=========================================
中国300个大模型。
距离Sora到底有多远?
1> 悲观
Gap,
Gpt3 , 3.5, 4.
2> 乐观
百姓AI: 做应用层的。
大模型的能力,和国内的需求联系在一起。
116:20 只要我们的模型在一直往前走,
只要大语言模型,跨过了需求的这个线,对国家
超过chatgpt是争鸣,超过需求,是争利。
2023年底,能达到chatgpt3.5.
不是唯一重要的事。
只要能超过某个点,对于国家就是好的,利于财富的增长。
286,386,486,
科技的发展,一定会放缓。中国的追赶,是有时间窗口的。
OpenAI:
验证了这条道路是可以走通的。
丝绸,瓷器。蒸汽机,电力。
我们到底能多快的?系统性的优势。
芯片的问题,Nvidia, 高端芯片对于中国是禁用的。
从应用的角度,中国
我们的芯片有差距,技术有差距,算力有差距。
材料在美国率先研究出来,武器率先研究出来。会加大落差。
生物技术,疾病,确实很令人担心。
126:00
它到底发生得多快?
Sora, 是否真得理解了这个世界?理解了世界模型。
Sora, 看起来理解了世界。
你认为我理解了这个世界?
从黑盒看来,它已经有了意识。
让我们相信,它已经有了意识。
AGI: 等同于聪明。
Moving target. 我们永远达不到AGI.
香农,图灵测试。永远都达不到
我们现在的生活,是几十年前的天堂。
但我们会认为不是天堂。
中国什么时候会做出sora?
近期一两年出现sora,
Chatgpt 3.0的影响。
Sora不做,是因为不知道这条路是否能走下去。
路线被证明是对的,不同公司通过不同路径的追赶。
《千脑智能》,后半部分预测错了。
世界模型:记忆和预测。
预测了一个台阶,结果踩空。
记忆模型 -> 预测 -> 记忆
Elon musk: GG人类。
135:00
中国在做基础模型的研究,太耗资源。算力。
应用型的研究。
全名去淘金。
互联网:netscape出来,网站,商业模式,付费,物流
花了10年,才真正的应用起来。
大语言模型:拿着锤子找钉子。商业论坛。
商业变革:都是
火:不是为了吃肉,而找火。
不是特别短的过程。
应用,会像散点一样的应用。
2000年,觉得互联网很厉害。.com泡沫
离信息高速公路有多远,过海100米。
新浪:吃的传统业务的红利。
94年底,互联网进入中国。
凡是会被我们想到的,10年内可以实现。
从想到,和能做到,10~20年作业。
98年,做B2C电子商务。
想象的过早,政策可能会过早。
用户可能还没有ready, 还没有准备好。七龙珠,AI只是其中的一颗龙珠。
很多人,都在找商业模式。
妙鸭相机。
尝鲜性的应用。
当下能看到的机遇:
工具(手电筒),下载软件(fomail),
Iphone里面的原生应用:
Google, 美团,打车
AI里面的原生应用:naïve app.
Agent, 智能体(秘书,满世界帮忙)
企业里面:
初级工作,容错性高的职位,越早的,可能会被取代;
律师,医疗,自动驾驶,一直处于辅助的工作。
自动驾驶,很难取代。
Sora, chagpt, 人也会犯错。
春晚,约瑟夫环。
Chatgpt,写了一个约瑟夫环。
Chatgpt, 代码已经写出来了,但是结果会出错。
做精密度非常高的工作,无法完全信任它。
你不知道,chatgpt的那句话会犯错,哪里埋了一个雷。
我可能会犯错。
152:00
人类不知道,chatgpt,sora,为什么有智能。
不知道的事情,无法控制。
涌现:到底为什么会有?
Sam: 我们也不知道它为什么会有智能。
人的智能,神经元的聚集涌现出来的。
围棋,智能,情感,意识, ……
更大规模的神经元,涌现出来的。
Chatgpt, 没有情感,没有意识。
和人类的表现越来越像。
恍恍惚惚的明意识,潜意识。
树突,训练好的,潜意识。
明意识,
这个世界,也不是真实存在的。
大脑,泡在液体里面的一坨肉。
智能大概有三件事情:感知 – 智能 – 行动。
Chatgpt: 感知,判断,行动。
视频感知世界 – chagpt – sora.
全世界的公共摄像头,都接入sora, 给装上手脚。
具生:具有行动力了。
看世界,就可以理解了。
小孩子,不会动的时候,很危险。等他能动的时候,就危险了。
《终结者》,天网:
车在英国出现的时候,大家很害怕。想的还是,世界上都是广场上走的妇女儿童。刚看到车的时候,想不到有公路。
技术,保证它的安全,保证它的安全。
电越来越重要,特别多的措施,保证它不会出错。
AI, 交给坏人,很可怕。
好人,要保证坏人不能做破坏。
不是自然发生,需要很多努力才能做到。
人工智能,和之前的很多技术都不一样。
汽车,是被动的,人不动,它就不会动。
人工智能,如果有了独立意识,
——三大定律,不能伤害人类。
人工智能,和人的价值观,完全对齐。
和平,是在整个冲突中达到的。
数字货币,核弹。
核弹,掌握在坏人手中,很危险。它掌握在国家,没有掌握在坏人。
核弹,获得原材料很难。技术已经能达到。
对中国可以改变的机会?
对AI ,只能卖课吗?
有什么建议?
科技的发展,还是在加速。
保持开放,不要紧张。保持学习。
海面上的船,海面上升
人,保持懒惰。
有洗衣机的时候,绝对不手洗。
Sora能生成的,就用sora.
恐慌,对抗的情绪,都不必要。
技术的周期:
1700年,
第一次工业革命:GDP的增速,人均GDP,疯狂增长。
第二次工业革命:
…
全球经济,降速。
互联网和技术革命,已经普惠了。
年轻人在抱怨,似乎没有什么机会了。
你们那个年代,一努力,就会有机会。
这波机会来了,
未来的app.
一代人有一代人的机会。
非常好的机会,
很羡慕这一代的大学生。
进入一个行业的时候,正好是一个行业的兴起。
技术的发展,不是匀速的。
23,24年,就是这个世界。
带来前所未有的方式。确定的是一个机遇。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。