一份关于大模型的简短的介绍_大模型通俗易懂

作者：不正经 | 2024-03-21 01:10:28

踩

大模型通俗易懂

大模型，顾名思义就是很大的模型，这个大指的是参数量的巨大。早在2019年，就有人开始研究大模型。大模型可以解决很多NLP任务，不需要梯度回传，不需要特别的训练或者微调，只需要你给大模型一个指令，或者给大模型几个example，他就可以完成相应的任务，甚至在zero-shot的场景下，大模型也能很好的完成目标任务。

在最近的一段时间，很多研究专注于大模型，有些研究致力于增加大模型的参数，使其能力更强，比如Megatron-turing NLG(530 billion)，Gopher(280 billion)，PaLM Chowdhery(540 billion)等等。另外的一系列方法是减小模型的规模，但是增加模型的训练流程，比如通过有监督学习，再比如增加人工标注的标签（或者人人类反馈，human feedback）进行训练。

到现在，大模型已经具备了很强的解决各类NLP任务的能力，在很多具体的任务上可以刷过现有的SOTA模型。近期一篇文章https://arxiv.org/pdf/2302.06476.pdf探索了chatgpt解决各类NLP任务的能力，发现在各类任务上的表现有所区别，比如在推理任务上的能力较强，在序列标注任务上的能力反而有点差，具体的可以参考这篇文章，以及其在知乎的讲解。https://zhuanlan.zhihu.com/p/606785094?utm_medium=social&utm_oi=577384699295567872&utm_psn=1609506498283085824&utm_source=wechat_session&s_r=0

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/不正经/article/detail/277294