赞
踩
关于大模型,众所周知的是它会产生幻觉。
其实,我们现在许多人对大模型有存在幻觉,也就是不切实际的的幻想。
这就需要一些清晰地认识到事物本质和关键要素的专家来提醒我们。
而具有大厂实战背景的北大博士卢菁就是这样的专家。他总结了12条,虽然看起来是给现有国内大模型方面泼了冷水,但也让我们真正认识到什么是核心问题和核心要素。
卢菁,男,北京科技大学博士,北京大学博士后,前腾讯高级研究员,曾就职于腾讯、爱奇艺等知名互联网公司,著有《速通机器学习》、《速通深度学习的数学基础》等作品。
对于国内风起云涌的大模型成果,他的观点如下:
1.训练起来大模型和训练出有通用能力的模型完全是两码事。
目前国内大模型只能说训练起来了,但是远无技术壁垒,这是大厂本就应该具备的能力,并不值得骄傲。
2.具备通用能力的大模型,入门参数量可能不是GPT3.5的175B,可能是GPT4的1.8T。
而且,这仅仅是必要条件,大规模的高质量语料也许才是现阶段除OpenAI以外其他企业真正的瓶颈所在。
3.如果瓶颈真的在语料,我很悲观。
语料会成为比芯片更大的壁垒。
因为人类最高质量的语料是书籍和论文,而真正高质量的书籍和论文掌握在西方世界手里。
4.现阶段,最关键的是把智能做上去。诸如长文本建模,性能优化,应用场景这些一点都不关键。至少对有出息的企业来说是这样,如果只是想做做应用就另当别论了。
5.拿Llama2 Finetune刷榜意义不大。
在特定数据集上刷得比GPT-4高并不能说明任何问题。
国内厂商最搞笑的是把C-eval的数据丢进训练集里面,然后再在C-eval上刷榜,各种吊打 GPT,这种行为跟芯片造假的性质差不多,让国人认不清差距,以为GPT-4根本没有什么壁垒,国内厂商已经很接近了。
事实是,如果GPT4是100分的话,国产的大模型能拿个10分已经烧高香了。
6.知识能力可能不是个事,推理能力是更高的门槛
GPT4除了四则运算会犯傻逼错误之外,很少犯傻逼错误,而且推理能力比其他模型要强太多太多。
我想其中可能有特别的建模方式,不清楚是不是RLHF带来的收益。
7.数学能力不是做算术,也不是做高考题。而是有数学直觉,推导,证明的能力。
目前我只在GPT4上看到了拥有数学直觉,但证明的能力还很欠缺。
8.流量不是大模型要考虑的事情
大模型要解决的是人类面临的难题,比如:
解决人类还没解决的科学问题去扩展人类的智能;
帮助企业做商业计划优化市场经济;
帮助社会建立更健全体系等等,达到千金一Token的效果。
否则,只是陪用户聊天,ROI很难做正。
9.在国内做LLM其实竞争不大,因为大家做事都太急太糙,目前看来大家都没太大出息。
预计两年内不会有太好的成果,而我也非常期待被打脸。
10.在变化的大模型能力背景下去重新思考
两个东西需要重新思考:在过去做不Work的想法,也许在大模型下可以重新尝试,说不定就Work了;在小模型下做Work的想法,也许在一定规模之后就不再Work了。
原因很简单,过去不Work的做法也许只是模型能力不够无法按照我们的预期去拟合;
而过去一些通过引入先验的方式提升模型能力,在参数量上去之后可能反过来制约了模型。
11.语言只是世界的一个投影,真正的未来是多模态。
在这一点上,OpenAI做得很慢,慢得让全世界着急,它却又走得比任何人都要快。真正的世界模型还在后头。
12.在高校,尤其是国内高校很难再做出有意义的工作了,有机会的话还是进厂做大模型刷新认知。
卢菁博士在B站上有许多放出来的课程,值得学习。
———— END ————
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。