当前位置:   article > 正文

#今日论文推荐#Jeff Dean等人新作:换个角度审视语言模型,规模不够发现不了_emergent abilities of large language models csdn

emergent abilities of large language models csdn

#今日论文推荐#Jeff Dean等人新作:换个角度审视语言模型,规模不够发现不了

这是一篇来自谷歌、斯坦福大学、北卡罗来纳大学教堂山分校以及 DeepMind 四个机构的研究,论文从「涌现(emergence)」的角度介绍大模型,所谓的涌现,即有些现象不存在于较小的模型中但存在于较大的模型中。
近年来,语言模型对自然语言处理 (NLP) 产生了革命性影响。众所周知,扩展语言模型,例如参数等,可以在一系列下游 NLP 任务上带来更好的性能和样本效率。在许多情况下,扩展对性能的影响通常可以通过扩展定律进行预测,一直以来,绝大多数研究者都在研究可预测现象。
相反,包括 Jeff Dean 、 Percy Liang 等在内的 16 位研究者合作的论文《 Emergent Abilities of Large Language Models 》,他们讨论了大模型不可预测现象,并称之为大型语言模型的涌现能力( emergent abilities)。所谓的涌现,即有些现象不存在于较小的模型中但存在于较大的模型中,他们认为模型的这种能力是涌现的。
涌现作为一种想法已经在物理学、生物学和计算机科学等领域讨论了很长时间,本论文从涌现的一般定义开始,该定义改编自 Steinhardt 的研究,并植根于 1972 年诺贝尔奖获得者、物理学家 Philip Anderson 的一篇名为 More Is Different 的文章。
本文探讨了模型规模的涌现,通过训练计算和模型参数来衡量。具体而言,本文将大型语言模型的涌现能力定义为在小规模模型中不存在、但在大规模模型中存在的能力;因此,大型模型不能通过简单地推断小规模模型的性能改进来进行预测。该研究调查了在一系列先前工作中观察到的模型涌现能力,并将它们进行分类:小样本提示和增强提示等设置。
模型的这种涌现能力激发了未来的研究,即为什么会获得这些能力,以及更大的规模是否会获得更多的涌现能力,并强调了这项研究的重要性。

论文题目:Emergent Abilities of Large Language Models
详细解读:https://www.aminer.cn/research_report/62b166357cb68b460fd7cca4?download=falseicon-default.png?t=M5H6https://www.aminer.cn/research_report/62b166357cb68b460fd7cca4?download=false
AMiner链接:https://www.aminer.cn/?f=cs

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/爱喝兽奶帝天荒/article/detail/809104
推荐阅读
相关标签
  

闽ICP备14008679号