赞
踩
第二期「澜舟分享会」在 8 月 20 日圆满落幕,本期主题为《金融 NLP 场景下,大模型技术应用趋势》,我们邀请到来自复旦大学计算机学院邱锡鹏教授分享了“大规模预训练模型:探讨与展望”,本次演讲主要围绕大规模预训练语言模型展开讨论,并探讨大模型成功的原因、适用场景、未来发展方向以及身处大模型时代我们的机遇。
错过直播的小伙伴可以通过 B 站“澜舟孟子开源社区”、微信视频号“澜舟科技”观看回放视频。另外,大家也可以关注「澜舟科技」公众号,在后台回复关键词“0820”获取 PPT 资料。
今天介绍的主题是对大规模预训练模型的探讨与展望。
目前,预训练模型对下游任务的提升非常明显,已成为自然语言处理乃至整个人工智能领域的基础模型。自然语言处理正在形成新的技术范式,即上游大规模的预训练模型配合下游任务的知识迁移调试。
现在,一个自然语言处理问题可以划为两部分的任务,分别为上游任务与下游任务。
上游任务,即通过构建数据、构建预训练模型来把模型做大。当然,预训练模型并不是只需要做大就可以,有时也需要更贴合下游任务,但通常情况下我们会认为,模型越大,越可能带来更多的收益。因此,一部分人在尝试构建大规模的预训练模型,另一部分人则致力于将模型应用到下游的任务调试方面。
对于任务调试来说,我们发现,随着模型参数量的增加,模型的小样本的学习效果会有明显提升。这种小样本的学习能力也正是人工智能追求的目标之一,即通用人工智能,其具有非常强的学习能力。因此,我们希望知道,如果我们继续对模型的规模进行数量级的扩大与增加,能否真正实现通用的人工智能。这也是驱动学术界与工业界的很多研究者致力于把模型做大的原因之一。
然而,将模型做大并非易事,不仅需要各方面的努力,包括更多的数据、算力、基础设施等,都要跟上;同时,也要考虑模型本身的能力是否足够,以及预训练任务能否支撑我们得到更好的预训练模型。
下游任务,即将已有的预训练模型更快更好的迁移到下游任务上。在下游任务的应用时,我们需要研究的问题也有很多。例如在效率的提升方面,早期我们使用 fintune 的方法对模型进行调参,但这种方法的效率非常低。因此后期就有人提出,采用只增加 adapter 调试器并只调一小部分的参数甚至不调参数,直接迁移到下游任务的方法是否可以提高效率。
目前,预训练模型综述的主要内容基本均由大模型应用的上游和下游两部分的研究构成。
图 1:预训练模型综述
关于预训练模型的综述,复旦大学的邱锡鹏团队发表了《Pre-trained Models for Natural Language Processing: A Survey》,对当今自然语言处理的预训练模型情况进行了梳理。其中内容包括但不限于:
当前预训练模型的各种架构类型,
上游预训练任务与模型,例如面向特定任务的多语言跨模态模型等。
预训练模型在下游任务的调试方法,例如 Fine-tuning 与 Promote-tuning 等。
<Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。