GPT革命：关于GPT近期发展的三个预测

作者：小小林熬夜学编程 | 2024-03-23 13:15:36

踩

gpt 长期记忆

预测是一件很容易打脸的事情，但记录自己的预测并检查是否正确是一种有效的学习方式（德鲁克说过类似的话），GPT就是通过不断的预测下一个token获得了这样的超能力，所以要想进步就得预测。

昨晚我在朋友圈说感觉最近对GPT发展的预测还挺准的

那就再来做三个预测吧。以下三个是我觉得OpenAI近期（GPT-4.5之前，三个月之内）会解决的问题。

一、长期记忆

GPT的Transformer架构的计算性能和参数规模及上下文大小强相关，而为了进一步加强模型能力，参数规模还在继续扩大，据说GPT-4的参数量约1万亿，大概是3.5的6倍，这决定了单个任务的上下文大小很难快速增加，从GPT-4的定价远比GPT-3.5贵可以看出这个问题并非那么好解决。但从实用角度，对上下文大小的需求又是接近无限的，你肯定希望能够不断的去训练它的各项能力，就像教育一个孩子长大成人一样。

因此，GPT迫切需要引入一种长期记忆机制。任务的上下文仅仅是working memory，长期记忆机制相当于程序的外存。GPT在执行过程中，可以“聪明”地将一些暂时不需要的上下文存入长期记忆，在需要的时候再把它重新加载进上下文。

实现机制是很成熟的，通过语义做向量embedding即可在需要时找回曾经的记忆，就是现在类似LangChain项目用来做文

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/295379