赞
踩
大模型,顾名思义就是很大的模型,这个大指的是参数量的巨大。早在2019年,就有人开始研究大模型。大模型可以解决很多NLP任务,不需要梯度回传,不需要特别的训练或者微调,只需要你给大模型一个指令,或者给大模型几个example,他就可以完成相应的任务,甚至在zero-shot的场景下,大模型也能很好的完成目标任务。
在最近的一段时间,很多研究专注于大模型,有些研究致力于增加大模型的参数,使其能力更强,比如Megatron-turing NLG(530 billion),Gopher(280 billion),PaLM Chowdhery(540 billion)等等。另外的一系列方法是减小模型的规模,但是增加模型的训练流程,比如通过有监督学习,再比如增加人工标注的标签(或者人人类反馈,human feedback)进行训练。
到现在,大模型已经具备了很强的解决各类NLP任务的能力,在很多具体的任务上可以刷过现有的SOTA模型。近期一篇文章https://arxiv.org/pdf/2302.06476.pdf探索了chatgpt解决各类NLP任务的能力,发现在各类任务上的表现有所区别,比如在推理任务上的能力较强,在序列标注任务上的能力反而有点差,具体的可以参考这篇文章,以及其在知乎的讲解。https://zhuanlan.zhihu.com/p/606785094?utm_medium=social&utm_oi=577384699295567872&utm_psn=1609506498283085824&utm_source=wechat_session&s_r=0
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。