当前位置:   article > 正文

一份关于大模型的简短的介绍_大模型通俗易懂

大模型通俗易懂

大模型,顾名思义就是很大的模型,这个大指的是参数量的巨大。早在2019年,就有人开始研究大模型。大模型可以解决很多NLP任务,不需要梯度回传,不需要特别的训练或者微调,只需要你给大模型一个指令,或者给大模型几个example,他就可以完成相应的任务,甚至在zero-shot的场景下,大模型也能很好的完成目标任务。

在最近的一段时间,很多研究专注于大模型,有些研究致力于增加大模型的参数,使其能力更强,比如Megatron-turing NLG(530 billion),Gopher(280 billion),PaLM Chowdhery(540 billion)等等。另外的一系列方法是减小模型的规模,但是增加模型的训练流程,比如通过有监督学习,再比如增加人工标注的标签(或者人人类反馈,human feedback)进行训练。

到现在,大模型已经具备了很强的解决各类NLP任务的能力,在很多具体的任务上可以刷过现有的SOTA模型。近期一篇文章https://arxiv.org/pdf/2302.06476.pdf探索了chatgpt解决各类NLP任务的能力,发现在各类任务上的表现有所区别,比如在推理任务上的能力较强,在序列标注任务上的能力反而有点差,具体的可以参考这篇文章,以及其在知乎的讲解。https://zhuanlan.zhihu.com/p/606785094?utm_medium=social&utm_oi=577384699295567872&utm_psn=1609506498283085824&utm_source=wechat_session&s_r=0

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/277294
推荐阅读
相关标签
  

闽ICP备14008679号