赞
踩
涌现(emergence
)或称创发、突现、呈展、演生,是一种现象,为许多小实体相互作用后产生了大实体,而这个大实体展现了组成它的小实体所不具有的特性。
扩大(
Scaling up
)语言模型已被证明可以预测性地提高各种下游任务的性能和样本效率。
Sample efficiency
)是指学习算法在使用尽可能少的训练样本的情况下,在某个任务上获得良好表现的能力。换句话说,它衡量了算法在学习任务时需要多少数据才能有效地学习。通过给
LLM(Large Language Model)
几个实例,不调整模型参数,解决下游任务。本质上属于In Context Learning
。
当语言模型达到一定的随机性能时,通过少量提示(
few-shot prompting
)执行任务的能力就会涌现,在此之后,性能显着提高到远高于随机。
例如:
Chain-of-Thought
(思维链),一种增强的提示策略(Augmented Prompting Strategies
)。
解决多步推理任务,引导语言模型在给出最终答案之前生成一系列中间步骤。
详情请见:【Chain-of-Thought】开创 AI 模型推理新纪元
专门的提示或微调方法可能会有涌现现象,因为它们在没有达到一定的模型规模之前,是不会产生积极的效果。
BIG-Bench
中有数十个任务,即使是最大的 GPT-3
和 PaLM
模型也无法实现高于随机的性能。BIG-Bench
是一个评估语言模型能力的广泛基准(benchmark),由 AI2、微软和卡内基梅隆大学等机构合作开发。它涵盖了来自多个领域的70个任务,包括自然语言理解、常识推理、知识库问答等等。这些任务旨在测试语言模型在大规模、复杂、多样化的应用场景下的表现,是目前最具挑战性的语言模型测试集之一。BIG-Bench 的任务数量和难度要远高于其他常见的语言模型基准,它的推出对于评估和推动语言模型的发展具有重要意义。InstructGPT
、ChatGPT
、GPT-4
模型提出了一种基于人类反馈的微调和强化学习方法(RLHF
),这使得一个参数量 1.3B 的模型在广泛的用例中,在人类评估方面的表现优于更大的模型。我们已经讨论了语言模型的涌现能力,迄今为止,只有在一定的计算规模上才观察到有意义的表现。涌现能力可以跨越各种语言模型、任务类型和实验场景。这些能力是最近发现的大型语言模型的结果,它们是如何出现的,以及更多的扩展是否会出现进一步的涌现能力成为 NLP 领域未来重要的研究方向。
[1] Wei J, Tay Y, Bommasani R, et al. Emergent abilities of large language models[J]. arXiv preprint arXiv:2206.07682, 2022.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。