当前位置:   article > 正文

《预训练周刊》第5期:智源等研究力证:GPT语言理解能力不输BERT、盘点NLP预训练「兵器谱」...

whiteningbert: an easy unsupervised sentence embedding approach

No.05

智源社区

预训练组

研究

观点

资源

活动

关于周刊

超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第5期《预训练周刊》,从论文推荐、研究动态等维度推荐近期发生在预训练模型领域值得关注的信息。

本期周刊,我们选择了6篇预训练相关的论文,涉及AI诗人、无监督句子嵌入、半监督学习、分子特征学习、机器学习数学以及语音识别的探索。此外,在研究动态方面,我们将介绍P-tuning的新方法来自动搜索连续空间中的prompt,以提高GPT模型的自然语言理解能力,突破Transformer具有二次时间复杂度、高内存使用率以及encoder-decoder体系结构限制的Informer,以及BERT发展史等方面的一些最新内容。周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

(本期贡献者:申德周 翟珂 吴新刚)

论文推荐

标题:Augmenting Poetry Composition with Verse by Verse(用诗歌推荐来增强诗歌创作)了解详情

简介:我们用诗来描述诗,我们在借助AI来增强诗歌创作的创造性过程。我们创建了一组以各种美国经典诗人的风格命名的AI诗人,可以作为建议用户撰写诗歌时生成的诗句行。在本文中,我们描述了提供这些建议的基础系统。这包括一个生成模型,该模型是负责生成大量的语料库的离线诗集,然后存储在索引,以及负责的双编码器模型推荐下一组可能的上一行给出了我们索引的经文的诗句。

论文地址:https://arxiv.org/pdf/2103.17205.pdf

 

标题:WhiteningBERT: An Easy Unsupervised Sentence Embedding Approach(WhiteningBERT:一种简单的无监督语句嵌入方法)了解详情

简介:计算句子嵌入,在实践中,无监督方式对自然语言匹配和检索问题很有用。在这项工作中,我们对基于预训练模型的无监督句子嵌入进行了全面检查。我们研究四个预训练模型,并在七个关于句子语义的数据集上进行大规模实验。我们有主要发现:一,平均所有字符向量比仅使用[CLS]字符向量效果更好;二,结合顶层和底层比仅使用顶层更好;最后,利用一个简单的基于白化方法,用少于10行的归一化策略代码段提高性能。

论文地址:https://arxiv.org/pdf/2104.01767.pdf

 

标题:借力预训练模型:实现半监督迁移学习自适应一致性正则化了解详情

简介:最近关于半监督学习的研究在利用标记和未标记数据方面取得了显著进展,但大多数研究都假定模型的基本设置是随机初始化的。本文研究了更实用和更具竞争力的场景:在具备预训练模型的情况下进行半监督学习,让自适应一致性正则化技术来充分利用预训练模型和无标签样本的价值。通过对ImageNet的预先训练模型resnet-50的fine-tuning,我们对现有流行的基准如CUB-200-2011、MIT-Indoor-67、MURA进行了广泛的验证对比。实验结果表明,我们提出的自适应一致性正则化优于最新的半监督学习技术(如Pseudo Label,Mean Teacher和MixMatch)。相比现有的方法:我们的算法是有明显优势,并且能和MixMatch/FixMatch等最新方法叠加使用、将获得进一步提升。

论文地址:https://arxiv.org/abs/2103.02193

 

标题:Knowledge-aware Contrastive Molecular Graph Learning(知识感知分子图对比学习)了解详情

简介:在分子特征学习中利用包括指纹和官能团在内的领域知识对化学性质预测和药物发现至关重要。在对分子图结构和分子性质之间的关系进行建模时,现有的工作很难捕捉到结构或特性的变化和原子种类分布不平衡的复杂结构。本文提出了用于自监督分子表征学习的对比知识感知图神经网络(CKGNN),将领域知识融合到分子图表征中。在对比学习框架下,作者通过CKGNN编码领域知识,确保生成的分子嵌入具备化学领域知识,以区分化学式相似但功能不同的分子。文章共在8个公共数据集上的广泛实验证明了其模型的有效性,平均上有6%的效果提升。

论文地址:https://arxiv.org/abs/2103.13047

 

标题:NaturalProofs: Mathematical Theorem Proving in Natural Language(NaturalProofs: 用自然语言证明数学定理)了解详情

简介:利用混合了人类使用的符号语言和自然语言的自然数学语言去了解和创造数学,是推动机器学习发展的一个具有挑战性的重要问题。作为在此方向的一小步,本文提出了NATURALPROOFS,一个用自然数学语言书写的大规模的数学语句数据集以及其对应的证明。作者在此基础上提出了一个数学检索任务,测试系统发掘证明中的关键结果的能力。与经典信息检索技术相比,大尺度序列模型借助语言模型预训练在这项任务中表现出色。

论文地址:https://wellecks.github.io/naturalproofs/welleck2021naturalproofs.pdf

 

标题:Robust wav2vec 2.0: Analyzing Domain Shift in Self-Supervised Pre-Training(分析自监督预训练中的域迁移)了解详情

简介:语音表征的自监督学习一直是一个非常活跃的研究领域,但大多数工作都集中在存在大量的标签和非标签数据的某一个单一的领域,如阅读有声读物。本文探索了更普遍的情况,预训练数据的未标记数据的域与微调的标记数据的域不同,而标记数据的域又可能与测试数据域不同。我们的实验表明,在预训练过程中使用目标域数据会在各种情况中带来很大的性能提升。在一个大规模的竞争性场景中,本文表明在未标记的域内数据上进行预训练可以将在域内和域外标记数据上训练的模型之间的差距缩小66%-73%。这具有明显的实际意义,因为获得无标签的目标域数据比获得有标签的数据要容易得多。此外作者发现,在多个域上进行预训练可以提高训练期间未见过的域的泛化性能。

代码地址:https://github.com/pytorch/fairseq

论文地址:https://arxiv.org/pdf/2104.01027.pdf

研究动态

标题:谁说GPT只擅长生成?智源、清华等研究力证:GPT语言理解能力不输BERT了解详情

简介:一直以来,GPT模型的语言生成能力有目共睹,但语言理解能力似乎略逊一筹。最近,智源、清华等机构的一项研究打破了这一刻板印象。GPT-3的成功表明,「巨大的单向语言模型 + 适当的手工prompt」这一组合可能有助于提高模型的自然语言理解能力。然而,手工制作表现最佳的prompt无异于大海捞针,通常需要异常庞大的验证集。在很多情况下,有效的prompt工程意味着过拟合测试集。而且,这很容易导致对抗 prompt的产生,进而导致模型性能大幅下降。为了解决这些问题,部分研究者致力于自动搜索离散prompt并取得了一些成效,但神经网络本质上是连续的,因此离散prompt可能并非最优。在一篇标题为《GPT Understands, Too》的论文中,来自清华大学、麻省理工、北京智源人工智能研究院、Recurrent AI 的 Xiao Liu、唐杰、杨植麟等研究者提出了一种名为P-tuning的新方法来自动搜索连续空间中的prompt,以提高GPT模型的自然语言理解能力。

 

标题:AAAI 2021最佳论文Informer:效果远超Transformer的长序列预测神器!了解详情

简介:在很多实际应用问题中,我们需要对长序列时间序列进行预测,例如用电使用规划。长序列时间序列预测(LSTF)要求模型具有很高的预测能力,即能够有效地捕捉输出和输入之间精确的长程相关性耦合。最近的研究表明,Transformer具有提高预测能力的潜力。然而,Transformer存在一些严重的问题,如:二次时间复杂度、高内存使用率以及encoder-decoder体系结构的固有限制。为了解决这些问题,我们设计了一个有效的基于变换器的LSTF模型Informer,它具有三个显著的特点:(1)ProbSparse Self-Attention,在时间复杂度和内存使用率上达到了  ,在序列的依赖对齐上具有相当的性能。(2)self-attention 提取通过将级联层输入减半来突出控制注意,并有效地处理超长的输入序列。(3)产生式decoder虽然概念上简单,但在一个正向操作中预测长时间序列,而不是一步一步地进行,这大大提高了长序列预测的推理速度。在四个大规模数据集上的大量实验表明,Informer的性能明显优于现有的方法,为LSTF问题提供了一种新的解决方案。

 

标题:盘点NLP预训练「兵器谱」,哪件才是你的最爱了解详情

简介:要说自然语言处理领域当今最fashion的“神兵”,恐怕非预训练语言模型莫属。2018年BERT横空出世,那真可谓是打开了NLP新世界的大门。且在这条预训练+微调的修行之路上,各路高手那叫一个百花齐放,各领风骚。你看XLNet才把 BERT从榜单之巅拉下马,那厢 RoBERTa便进一步“榨干”BERT 性能,重归榜首。其实,还不仅仅是西方选手轮番登台,文心ERNIE等东方身影也不乏精彩表现。那么,这两年多以来,都有哪些模型表现可圈可点?诸位看官便不妨随我盘点一番~

如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-预训练-交流群”。在这里,你可以:

 

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,或点击阅读原文申请加入(选择“兴趣交流群→预训练”)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/木道寻08/article/detail/858076
推荐阅读
相关标签
  

闽ICP备14008679号