超越ChatGPT：大模型的智能极限_fine turning chatgpt

作者：菜鸟追梦旅行 | 2024-03-21 11:16:43

踩

fine turning chatgpt

在此前《大型语言模型的涌现能力》、《ChatGPT进化的秘密》两篇文章中，符尧剖析了大型语言模型的突现能力和潜在优势，大模型所带来的“潜在的”范式转变，并拆解了ChatGPT演进的技术路线图。

在本文中，作者以终为始分析了大模型的智能极限及其演进维度。不同于刻舟求剑式只追求复现ChatGPT的经典互联网产品思维，而是指出了OpenAI组织架构和尖端人才密度的重要性，更重要的是，分享了模型演化与产品迭代及其未来，思考了如何把最深刻、最困难的问题，用最创新的方法来解决。

（以下内容经授权后由OneFlow发布，原文：https://yaofu.notion.site/e1cd16d1fae84f87aeddf872c838e07c）

作者｜符尧
爱丁堡大学博士生

yao.fu@ed.ac.uk

2022 年 12 月，ChatGPT 横空出世。OpenAI 用一个核弹级的成果改变了科学研究和工程应用的范式。在中国，ChatGPT 受到了广泛的关注与深刻的讨论。

在过去的一个月里，我走访各大高校、研究院、大厂、创业公司和风投。从北京到上海到杭州到深圳，跟所有头部的玩家们全部聊了一遍。The Game of Scale 在中国已然拉开，风暴中心的玩家们，在已知国内技术和生态与世界前沿的巨大鸿沟下，如何做成这件事？谁能做成这件事？

秦失其鹿，天下共逐之。

——— 《史记·淮阴侯列传》

三种不同的答案

我每接触到一个创业公司，都会问同一个问题：”ChatGPT 在那里，你们想做什么？“ 我大概能收到三种不同的答案。

1.1 做中国的 ChatGPT

第一个答案很明确，要做中国的 ChatGPT。因为它就在那里，所以想要复现，想要国产化。这是很经典的产品导向中文互联网思维。这种思路也是过去二十年，中文互联网常见的商业模式：首先硅谷做出来一个东西，然后我们把它抄过来。

但这里的问题是，首先，ChatGPT 可不像打车软件，复现难度完全不可同日而语。光从人的角度看，GPT 的产生，是这个世界上最顶尖的科学家和工程师们从 2015 年开始就不断研究的结果。

OpenAI 的首席科学家 Ilya Sutskever 深刻地相信 AGI 一定能实现。作为图灵奖得主 Geoffery Hinton 的大弟子，从 2007 年就开始研究深度学习。他的 citation 有 37 万，发过的文章精准踩中了过去十年 Deep Learning 的所有关键节点。即使是如此强大的团队，从 GPT 2 到 GPT 3.5 也花了四年的时间，它的科学与工程的难度可想而知。

同时，初代 ChatGPT，是 OpenAI 在 GPT 3.5 的基础模型上，花了两星期时间对着 dialog 做 finetuning 之后随手扔出来的 demo。这里真正强的并不是 ChatGPT 这一个产品，而是底下的 GPT 3.5 基础模型。这个模型还在不断地演化，GPT 3.5 系列在 2022 年更新了三个大版本，每个大版本都显著强于前一个版本；同样地，ChatGPT 发布两个月一共更新了四个小版本，每个小版本都在单个的维度上比前一个版本有着明显的改进。OpenAI 的所有模型都在持续不断的演化，随时间推移越来越强。

这也就意味着，如果只盯着当前 ChatGPT 这一个产品，无异于刻舟求剑。当 ChatGPT 出现的时候，它对已有的语音助手们形成了降维打击；如果看不到基础模型的演化，即使花个一两年辛辛苦苦做出一个类似的东西，那时候 OpenAI 的基础模型也在继续变强，如果他们接着产品化，以新的更强的基础模型 finetune 到一个更强的产品ÿ

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/280827