当前位置:   article > 正文

GPT革命:关于GPT近期发展的三个预测

gpt 长期记忆

预测是一件很容易打脸的事情,但记录自己的预测并检查是否正确是一种有效的学习方式(德鲁克说过类似的话),GPT就是通过不断的预测下一个token获得了这样的超能力,所以要想进步就得预测。

昨晚我在朋友圈说感觉最近对GPT发展的预测还挺准的

4e6ef3f5e6741479b4587c77d52a751e.jpeg

那就再来做三个预测吧。以下三个是我觉得OpenAI近期(GPT-4.5之前,三个月之内)会解决的问题。

一、长期记忆

GPT的Transformer架构的计算性能和参数规模及上下文大小强相关,而为了进一步加强模型能力,参数规模还在继续扩大,据说GPT-4的参数量约1万亿,大概是3.5的6倍,这决定了单个任务的上下文大小很难快速增加,从GPT-4的定价远比GPT-3.5贵可以看出这个问题并非那么好解决。但从实用角度,对上下文大小的需求又是接近无限的,你肯定希望能够不断的去训练它的各项能力,就像教育一个孩子长大成人一样。

因此,GPT迫切需要引入一种长期记忆机制。任务的上下文仅仅是working memory,长期记忆机制相当于程序的外存。GPT在执行过程中,可以“聪明”地将一些暂时不需要的上下文存入长期记忆,在需要的时候再把它重新加载进上下文。

实现机制是很成熟的,通过语义做向量embedding即可在需要时找回曾经的记忆,就是现在类似LangChain项目用来做文

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/295379
推荐阅读
相关标签
  

闽ICP备14008679号