赞
踩
在此前《大型语言模型的涌现能力》、《ChatGPT进化的秘密》两篇文章中,符尧剖析了大型语言模型的突现能力和潜在优势,大模型所带来的“潜在的”范式转变,并拆解了ChatGPT演进的技术路线图。
在本文中,作者以终为始分析了大模型的智能极限及其演进维度。不同于刻舟求剑式只追求复现ChatGPT的经典互联网产品思维,而是指出了OpenAI组织架构和尖端人才密度的重要性,更重要的是,分享了模型演化与产品迭代及其未来,思考了如何把最深刻、最困难的问题,用最创新的方法来解决。
(以下内容经授权后由OneFlow发布,原文:https://yaofu.notion.site/e1cd16d1fae84f87aeddf872c838e07c)
作者|符尧
爱丁堡大学博士生
yao.fu@ed.ac.uk
2022 年 12 月,ChatGPT 横空出世。OpenAI 用一个核弹级的成果改变了科学研究和工程应用的范式。在中国,ChatGPT 受到了广泛的关注与深刻的讨论。
在过去的一个月里,我走访各大高校、研究院、大厂、创业公司和风投。从北京到上海到杭州到深圳,跟所有头部的玩家们全部聊了一遍。The Game of Scale 在中国已然拉开,风暴中心的玩家们,在已知国内技术和生态与世界前沿的巨大鸿沟下,如何做成这件事?谁能做成这件事?
秦失其鹿,天下共逐之。
——— 《史记·淮阴侯列传》
1
三种不同的答案
我每接触到一个创业公司,都会问同一个问题:”ChatGPT 在那里,你们想做什么?“ 我大概能收到三种不同的答案。
1.1 做中国的 ChatGPT
第一个答案很明确,要做中国的 ChatGPT。因为它就在那里,所以想要复现,想要国产化。这是很经典的产品导向中文互联网思维。这种思路也是过去二十年,中文互联网常见的商业模式:首先硅谷做出来一个东西,然后我们把它抄过来。
但这里的问题是,首先,ChatGPT 可不像打车软件,复现难度完全不可同日而语。光从人的角度看,GPT 的产生,是这个世界上最顶尖的科学家和工程师们从 2015 年开始就不断研究的结果。
OpenAI 的首席科学家 Ilya Sutskever 深刻地相信 AGI 一定能实现。作为图灵奖得主 Geoffery Hinton 的大弟子,从 2007 年就开始研究深度学习。他的 citation 有 37 万,发过的文章精准踩中了过去十年 Deep Learning 的所有关键节点。即使是如此强大的团队,从 GPT 2 到 GPT 3.5 也花了四年的时间,它的科学与工程的难度可想而知。
同时,初代 ChatGPT,是 OpenAI 在 GPT 3.5 的基础模型上,花了两星期时间对着 dialog 做 finetuning 之后随手扔出来的 demo。这里真正强的并不是 ChatGPT 这一个产品,而是底下的 GPT 3.5 基础模型。这个模型还在不断地演化,GPT 3.5 系列在 2022 年更新了三个大版本,每个大版本都显著强于前一个版本;同样地,ChatGPT 发布两个月一共更新了四个小版本,每个小版本都在单个的维度上比前一个版本有着明显的改进。OpenAI 的所有模型都在持续不断的演化,随时间推移越来越强。
这也就意味着,如果只盯着当前 ChatGPT 这一个产品,无异于刻舟求剑。当 ChatGPT 出现的时候,它对已有的语音助手们形成了降维打击;如果看不到基础模型的演化,即使花个一两年辛辛苦苦做出一个类似的东西,那时候 OpenAI 的基础模型也在继续变强,如果他们接着产品化,以新的更强的基础模型 finetune 到一个更强的产品ÿ
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。