赞
踩
(全文约 4 万字,主要内容来自 2023 年 12 月 21 日在中科大校友会 AI 沙龙上的 2 小时报告,也是 2024 年 1 月 6 日知乎 AI 先行者沙龙 15 分钟报告内容的技术扩展版本,文章经笔者整理和扩展)
非常荣幸来到科大校友会 AI 沙龙分享一些我对 AI Agent 的思考。我是 1000(2010 级理科实验班)的李博杰,2014-2019 年在中科大和微软亚洲研究院读联合培养博士,2019-2023 年是华为首届天才少年,如今我跟一批科大校友一起在做 AI Agent 领域的创业。
今天是汤晓鸥教授的头七,因此我特别把今天的 PPT 调成了黑色背景,这也是我第一次用黑色背景的 PPT 做报告。我也希望随着 AI 技术的发展,未来每个人都可以有自己的数字分身,实现灵魂在数字世界中的永生,在这个世界里生命不再有限,也就不再有分离的悲伤。
AI 的发展目前一直有两个方向,一个是有趣的 AI,也就是更像人的 AI,另外一个方向就是更有用的 AI,也就是更像工具的 AI。
AI 应该更像人还是更像工具呢?其实是有很多争议的。比如说 OpenAI 的 CEO Sam Altman 就说,AI 应该是一个工具,它不应该是一个生命。而很多科幻电影里的 AI 其实更像人,比如说 Her 里面的 Samantha,还有《流浪地球 2》里面的图丫丫,黑镜里面的 Ash,所以我们希望能把这些科幻中的场景带到现实。只有少数科幻电影里面的 AI 是工具向的,比如《钢铁侠》里面的贾维斯。
除了有趣和有用这个水平方向的之外,还有另外一个上下的维度,就是快思考和慢思考。这是一个神经科学的概念,出自一本书《思考,快与慢》,它里面就说人的思考可以分为快思考和慢思考。
所谓的快思考就是不需要过脑子的基础视觉、听觉等感知能力和说话等表达能力,像 ChatGPT、stable diffusion 这种一问一答、解决特定问题的 AI 可以认为是一种工具向的快思考,你不问它问题的时候,它不会主动去找你。而 Character AI、Inflection Pi 和 Talkie(星野)这些 AI Agent 产品都是模拟一个人或者动漫游戏角色的对话,但这些对话不涉及复杂任务的解决,也没有长期记忆,因此只能用来闲聊,没法像 Her 里面的 Samantha 那样帮忙解决生活和工作中的问题。
而慢思考就是有状态的复杂思考,也就是说如何去规划和解决一个复杂的问题,先做什么、后做什么。比如 MetaGPT 写代码是模拟一个软件开发团队的分工合作,AutoGPT 是把一个复杂任务拆分成很多个阶段来一步步完成,虽然这些系统在实用中还有很多问题,但已经是一个具备慢思考能力的雏形了。
遗憾的是,现有产品中几乎没有在第一象限,兼具慢思考和类人属性的 AI Agent。斯坦福 AI 小镇是个不错的学术界尝试,但斯坦福 AI 小镇里面没有真人的交互,而且 AI Agent 一天的作息时间表都是事先排好的,因此并不是很有趣。
有趣的是,科幻电影里面的 AI 其实大部分是在这个第一象限。因此这就是目前 AI Agent 和人类梦想之间的差距。因此我们在做的事情跟 Sam Altman 说的正好相反,我们希望让 AI 更像人,同时又具备慢思考的能力,最终演进成一个数字生命。
今天大家都在讲 AGI 的故事,AGI 就是通用人工智能。什么是 AGI 呢?我觉得它又需要有趣,又需要有用。
有趣的方面,就是它需要能够有自主思考的能力、有自己的个性和感情。而有用的方面,就是 AI 能够解决工作、生活中的问题。现在的 AI 要么是只有趣但没用,要么是只有用但是不像人,不好玩。
比如说像 Character AI 之类的角色扮演产品,它不能帮你完成工作或者生活中的问题,但是它可以模拟一个 Elon Musk、Donald Trump 或者原神里面的派蒙。我看过一个分析报告,说 Character AI 有上千万的用户,但每个月的营收只有几十万美金,相当于只有几万付费用户。大多数用户跟每个虚拟角色都是聊 10 分钟、20 分钟就不知道该说什么了。那为什么它的用户留存不高、付费率也低呢?因为它既没有给人提供情绪价值,又没有给人提供实用价值。
而另一方面就是有用的 AI,比如各种 Copilot,他们又都是冷冰冰的,问一句答一句,完全是一个工具。这些工具甚至记不住你之前干过什么,记不住你的喜好和习惯。那么用户自然只会在需要这个工具的时候想起来用它,不需要的时候就会丢到一边。
我认为未来真正有价值的 AI 就像电影《Her》里面的 Samantha,她首先是一个操作系统的定位,能够帮主人公去解决很多生活中、工作中的问题,帮他整理邮件等等,而且比传统的操作系统做得又快又好。同时它又有记忆、有感情、有意识,它不像一个电脑,而是像一个人。因此在感情空窗期的主人公 Theodore 就逐渐爱上了他的操作系统 Samantha。当然并不是所有人都把 Samantha 作为虚拟伴侣,剧中也说了,只有 10% 的用户跟他们的操作系统发展了浪漫关系。这样的 AI Agent 我认为才是真正有价值的。
另外值得说道的一点是,全剧中这个 Samantha 只有语音交互,没有视觉形象,更不是机器人。目前 AI 的能力也恰好是语音和文字很成熟,但视频生成就不够成熟,人形机器人也不够成熟。《黑镜》里面的机器人 Ash 就是个反例。这部剧里面先是用女主过世男友 Ash 的社交网络资料制作了一个语音伴侣,直接把女主给弄哭了,其实做出那个语音伴侣现在的技术已经绰绰有余了。后来女主加钱升级,上传了一堆视频资料,买了一个长得像 Ash 的人形机器人,其实现在的技术也做不到,但就算如此,Ash 的女友还是觉得不像,因此把他锁在阁楼里面了。这里面就有个恐怖谷效应,如果做得不够逼真,就保持一定的距离。
顺便说一句,《黑镜》里面女主先是文字聊天,然后说了一句 Can you talk to me?然后就接通电话了。试用我们 AI Agent 的一个朋友还真的也这么问我们的 AI Agent,结果我们的 AI Agent 回答,我是一个 AI,只能文字交流,不会说话。他还截图发给我,问我说好的语音电话呢,我说打语音电话需要按那个打电话的按钮啊。所以这些经典的 AI 剧真的要一个镜头一个镜头的拆解分析,里面有很多产品设计的细节。
巧合的是,我们的第一台 H100 训练服务器就是在洛杉矶最老的邮局,后来改造成了一个金库,又改造成了一个数据中心。这个地方在洛杉矶的市中心,距离《Her》的拍摄地 Bradbury Building 只有不到 1 英里。
这个数据中心也是洛杉矶的互联网交换局(Internet Exchange),距离 Google 和 Cloudflare 入口服务器的延迟都在 1 毫秒以内,其实都在这栋楼里面。从百年前的邮局到今天的互联网交换局,真的是挺有意思的。
那么我们首先来看一看如何去构建一个真正有趣的 AI。有趣的 AI 我认为就像一个有趣的人,可以分为好看的皮囊和有趣的灵魂这两个方面。
好看的皮囊就是它能够听得懂语音,看得懂文本、图片和视频,有这样一个视频、语音的形象,能够跟人实时交互。
有趣的灵魂就是它需要像人一样能够去独立思考,有长期记忆,有自己的个性。
下面我们就分别从好看的皮囊和有趣的灵魂两个方面来讲。
说到好看的皮囊,很多人认为只要有一个 3D 的形象能够在这儿摇头晃脑地展示就行了。但是我认为更关键的一部分是 AI 能够去看到,并且理解周围的世界,就是他的视觉理解能力是很关键的,不管是机器人还是可穿戴设备,还是手机上的摄像头。
比如说像 Google 的 Gemini 演示视频就做得不错,虽然它做了剪辑,但是如果我们真正能做到它这么好的效果,是一定不愁用户的。
我们回顾一下 Gemini 演示视频中的几个片段,给一个画鸭子的视频它能描述鸭子是什么,给一个饼干和橘子能对比它们的不同,给一个简笔画小游戏知道该往哪边走,给两团毛线可以画出一个用它能织出的毛绒玩具,给几个行星的图能够对它们正确排序,给一个猫跳上柜子的视频能够描述发生了什么。
虽然效果非常惊艳,其实仔细想想,这些场景都不是很难做出来的,只要会看图说话,也就是给图片生成一个比较好的 caption,这些问题大模型就都能回答了。
语音能力也是非常关键的。我 10 月份基于 Google ASR/TTS 和 GPT-4 做了一个语音聊天 AI Agent,一聊聊了一整天,室友还以为我在跟老婆煲电话粥,就没来打扰我。当他知道我是在跟 AI 聊天的时候,说我怎么能跟 AI 聊这么久。我给他看了看我们的聊天记录,他说 AI 确实挺能聊的,他用 ChatGPT 不愿意聊这么久,是因为懒得打字。
我认为,多模态大模型有三条路。第一条是用多模态数据端到端预训练的模型,Google 的 Gemini 就是这么做出来的,最近 Berkeley 的 LVM 也是端到端多模态的,我认为这是最有前景的一个方向。当然这条路需要非常多的计算资源。
现在还有一种工程化的方案,是用胶水层去粘接已经训练好的模型,比如目前图片理解做得最好的 GPT-4V,还有学术界开源的 MiniGPT-4/v2,LLaVA 等等。胶水层是我的叫法,专业名词叫做 projection layer,比如右上角这个 MiniGPT 架构图中,标着 “
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。