小小林熬夜学编程

这个屌丝很懒，什么也没留下！

热门标签

《预训练周刊》第44期：相邻注意力、变换器修剪、GPT-4预测

作者：小小林熬夜学编程 | 2024-06-03 10:12:24

踩

a fast post-training pruning framework for transformers

No.44

智源社区

预训练组

预

训

练

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息，《预训练周刊》已经开启“订阅功能”，以后我们会向您自动推送最新版的《预训练周刊》。订阅方法：

方式1：扫描下面二维码，进入《预训练周刊》主页，选择“关注TA”。

方式2：点击本文下方的“阅读原文”，进入《预训练周刊》Hub社区版，根据内附的详细订阅步骤，完成订阅。

关于周刊

本期周刊，我们选择了12篇预训练相关的论文，涉及网络结构、对话系统、模型裁剪、代码生成、预训练技术、视觉文本训练、多语言问答、零样本泛化、文本分类、对比学习、蛋白生成和主动学习的探索。此外，在研究动态方面，我们选择了2篇预训练资讯，将介绍关系抽取和语言模型方面的一些最新内容。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）

论文推荐

标题：俄勒冈大学、Picsart、Meta | Neighborhood Attention Transformer （相邻注意力变换器）了解详情

作者：Ali Hassani, Steven Walton, Humphrey Shi等

简介：本文提出一种图像领域新型变换器结构。作者提出了相邻注意力变换器(NAT)，一种高效、准确和可扩展的层次结构，对图像分类和下游视觉任务适用的变换器。它建立在 Neighborhood Attention (NA) 之上，这是一种简单灵活的注意力机制，可以为每个查询定位感受野到其最近的相邻像素。NA是本地化自注意力，并将其视为感受野尺寸增加。它在 FLOP 和内存使用上也与 Swin Transformer的偏移窗口注意力相当，给定相同的感受野大小，同时受到较少的限制。此外，NA包括局部感应偏置，从而消除了对额外操作的需要，例如随着像素的变化。NAT实验结果具有竞争力：NAT-Tiny 在 ImageNet 上达到 83.2% 的 top-1 准确率，只有4.3 GFLOPs和28M参数，MS-COCO 上的 51.4% mAP 和 ADE20k 上的 48.4% mIoU。

代码下载：https://github.com/SHILabs/Neighborhood-Attention-Transformer

论文地址：https://arxiv.org/pdf/2204.07143v1.pdf

标题：斯坦福|BUILD A ROBUST QA SYSTEM WITH TRANSFORMER-BASED MIXTURE OF EXPERTS（建立一个基于专家混合变换器的健壮对话系统）了解详情

作者：Yu Qing Zhou, Xixuan Julie Liu, Yuanzhe Dong

简介：本文提出一种对话建模方法。在本文中，作者的目标是构建一个能够适应域外的健壮问答系统。单个网络可能会过度拟合训练分布中的表面相关性，混合专家 (MoE) 模型允许作者训练一个可以泛化到域外数据集的多任务学习器。作者还探索了将 MoE 层带到中间的可能性DistilBERT，并用稀疏激活的开关 FFN 替换密集前馈网络层，类似于Switch Transformer架构，它简化了 MoE 路由算法减少通信和计算成本。除了模型架构，作者还探索数据增强技术，包括简易数据增强和反向翻译，以在小的域外训练数据之间创造更有意义的差异，从而提升作者模型的性能和稳健性。在本文中，作者展示了作者的最佳组合架构和数据增强技术在域外实现了53.477的F1分数评估，这比基线提高了9.52%。在最终的测试集上，作者报告了一个更高的 59.506的F1和41.651的EM。作者成功证明了Robust QA 任务中的混合专家架构的有效性。

论文地址：https://arxiv.org/pdf/2204.09598.pdf

标题：伯克利、三星|A Fast Post-Training Pruning Framework for Transformers（一个快速的训练后变换器修剪框架）了解详情

作者：Woosuk Kwon, Sehoon Kim, Amir Gholami等

简介：本文介绍了一种推理加速方法。修剪是一种有效的减少大型 Transformer 模型的巨大推理成本的方法。然而，先前关于模型修剪的工作需要重新训练模型。这会增加高成本和模型部署复杂性，实际情况使其难以在许多情况下使用。为了解决这个问题，作者提出了一个用于变换器的快速训练后修剪框架，不需要任何再训练。给定资源限制和一个样本数据集，作者的框架会自动修剪使用结构化稀疏方法的变换器模型。在不重新训练的情况下保持高精度，作者介绍三个新技术：（i）根据Fisher信息轻量级掩码搜索算法；(ii) 掩码重排补充搜索算法；(iii) 掩模调整重建每一层的输出激活。作者对 BERT-BASE 和 DistilBERT 应用此方法，作者评估它在GLUE 和 SQuAD 基准测试中的有效性。作者的框架实现了高达2.0倍的FLOP节省和推理延迟提高1.56 倍，同时保持精度损失<1%。重要的是，作者的变换器框架修剪在单个GPU上耗时不到 3 分钟，这比现有的重新训练的修剪方法快两个数量级以上。

论文下载：https://arxiv.org/pdf/2204.09656.pdf

标题：康奈尔|CodexDB: Generating Code for Processing SQL Queries using GPT-3 Codex （CodexDB：使用 GPT-3 Codex 为处理生成SQL查询代码）了解详情

作者：Immanuel Trummer

简介：本文介绍了一种自然语言生成数据库查询代码的方法。CodexDB 是一个 SQL 处理引擎，其内部结构可以通过自然语言指令进行定制。CodexDB 基于OpenAI 的 GPT-3 Codex 模型，可将文本转换为代码。这是一个基于 GPT-3 Codex 的框架，用于分解复杂的 SQL查询成一系列简单的处理步骤，以自然的方式描述语言。用户提供的说明和数据库属性描述丰富了处理步骤，CodexDB将生成的文本转换为查询处理代码。CodexDB早期原型能够为WikiSQL基准测试中大多数查询生成正确的代码，并且可以通过各种方式进行定制。

代码下载：https://github.com/itrummer/CodexDB

论文下载：https://arxiv.org/pdf/2204.08941.pdf

标题：微软 | METRO: Efficient Denoising Pretraining of Large Scale Autoencoding Language Models with Model Generated Signals（METRO：使用模型生成信号对大规模自动编码语言模型进行有效去噪预训练）了解详情

作者：Payal Bajaj, Chenyan Xiong, Guolin Ke, 等

简介：本文提出了一种利用辅助模型生成的训练信号、预训练大规模自动编码语言模型的有效方法。该训练策略起源于ELECTRA，在数亿个参数的规模下，已经证明了对预训练模型的样本效率。在这项工作中，作者进行了全面的实证研究，并提出了一个方法、即“模型生成去噪训练目标”（METRO），它结合了最近开发的一些最佳建模技术，以加速、稳定和增强预训练语言模型，同时又不影响模型的有效性。由此产生的模型METRO-LM由多达54亿个参数组成，实现了 GLUE、 SuperGLUE、和SQuAD 基准上最新的SOTA水平。更重要的是，METRO-LM的效率高，因为METRO-LM通常比以前的大型模型表现更好、尺寸更小、预训练成本更低。

论文下载：https://arxiv.org/pdf/2204.06644

标题：悉尼大学、中国国际数字经济研究院 | Vision-and-Language Pretrained Models: A Survey（综述：视觉和语言预训练模型）了解详情

作者：Siqu Long, Feiqi Cao, Soyeon Caren Han,等

简介：本文是视觉和语言预训练模型的综述研究。预训练模型在计算机视觉(CV)和自然语言处理(NLP)方面都取得了巨大的成功。这一进展通过将视觉和语言内容输入到一个多层转换器，即视觉语言预训练模型（VLPM），从而学习视觉和语言预训练的联合表征。在这篇文章中，作者概述了VLPM在视觉和语言联合表达方面取得的主要进展。作为前言，作者简要地描述了VLPM的一般任务定义和通用结构；作者首先讨论了语言和视觉数据的编码方法，然后作为核心内容介绍了主流的VLPM结构。作者进一步总结了多个VLPM 基本的预训练和微调策略。最后，作者强调了CV和NLP研究人员的三个未来方向，以提供有见地的指导。

论文下载：https://arxiv.org/pdf/2204.07356.pdf

标题：阿联酋MBZUAI大学 | MuCoT: Multilingual Contrastive Training for Question-Answering in Low-resource Languages（低资源语言问答的多语言对抗训练）了解详情

作者：Gokul Karthik Kumar, Abhishek Singh Gehlot, Sahal Shaji Mullappilly, 等

简介：本文针对问答系统（QA）在低资源语言场景预训练研究探索。英语问答系统拥有大量英文文本语料库，适宜进行预训练并通进一步微调。基于多语言BERT模型（mBERT）通常用于将知识从高资源语言转移到低资源语言。然而，由于缺乏训练数据，直接为低资源语言训练基于mBERT的QA系统具有挑战性。在这项工作中，作者通过将目标语言的QA样本翻译成其他语言，并使用增加的数据对基于mBERT的QA模型进行微调，该模型已经用英语进行了预训练。在Google ChAII数据集上的实验表明，使用来自同一语系的翻译微调mBERT模型可以提高问答性能，而在跨语系的情况下，性能会下降。作者进一步表明，在微调过程中，在翻译的问题-语境特征对之间引入对比损失，可以防止跨语言类翻译的退化、并导致边际改善。

论文下载：https://arxiv.org/pdf/2204.05814

标题：HuggingFace、Google等联合| What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization?（什么语言模型体系结构和预训练目标最适合零样本泛化？）了解详情

作者：Thomas Wang, Adam Roberts, Daniel Hesslow,等

简介：本文针对预训练语言模型进行零样本泛化方向的研究。大型预训练的Transformer语言模型已被证明具有零样本泛化能力，即它们可以执行各种各样的任务，而这些任务并没有经过明确的训练。然而，在最先进的模型中使用的架构和预训练目标存在显著差异，对这些因素的系统比较也有限。在这项工作中，作者对建模选择及其对零样本泛化的影响进行了大规模评估。特别是，作者关注文本到文本模型，并使用三种模型架构（仅因果、非因果解码器和编码器-解码器）进行实验，使用两种不同的预训练目标（自回归和掩蔽语言建模）进行训练，并在有和无多任务提示微调的情况下进行评估。作者通过实验（为1700多亿个token训练了超过50亿个参数的模型）获得了多个方向的结论。详情请参阅论文。

论文下载：https://arxiv.org/pdf/2204.05832.pdf

代码下载：https://github.com/bigscience-workshop/architecture-objective

标题：宾夕法尼亚大学 | Multi-label topic classification for COVID-19 literature with Bioformer（用Bioformer对COVID-19文献进行多标签主题分类）了解详情

作者：Li Fang, Kai Wang

简介：本文展示了COVID-19文献的多标签主题分类任务比赛的冠军成果。该方案的使用不同的BERT模型，即BioBERT、PubMedBERT和Bioformer进行的。作者将主题分类任务表述为一个句对分类问题，其中标题是第一句，摘要是第二句。本文的结果表明，Bioformer在这项任务中的表现优于BioBERT和PubMedBERT，轻量级的模型可以在COVID-19文章的主题分类中取得令人满意的表现。与基线结果相比，本文方法的最佳模型将微观、宏观和基于实例的F1得分分别提高了8.8%、15.5%和7.4%。Bioformer在这次挑战中取得了最高的微观F1和宏观F1得分。在后续的实验中，本文发现Bioformer对COVID-19文章的预训练进一步提高了性能。本文希望本文的研究能促进COVID-19文章以外的科学文献的自动主题分类任务。

论文地址：https://arxiv.org/pdf/2204.06758v1.pdf

标题：微软 | Multilingual Molecular Representation Learning via Contrastive Pre-training（通过对比学习预训练的多语言分子表征学习）了解详情

作者：Zhihui Guo, Robin Abraham等

简介：本文展示了对比学习与预训练在分子表征的应用。分子表征学习在化学信息学中起着至关重要的作用。最近，基于语言模型的方法作为传统的分子编码特征的替代方法得到了普及。然而，这些方法只利用单一的分子语言进行表征学习，但是一个给定的分子可以用不同的语言描述，如SMILES、IUPAC和InChI。本文提出了一种多语言分子嵌入生成方法，称为MM-Deacon，即通过对比学习的多语言分子领域嵌入分析。MM-Deacon使用SMILES和IUPAC作为两种不同的语言对大规模分子进行预训练，将来自SMILES-IUPAC联合训练的相互信息与自监督的对比损失相结合。本文在MoleculeNet基准的七个分子特性预测任务、零样本跨语言检索和药物相互作用预测任务上评估了本文方法的稳健性。本文的结果表明，自监督的多语言对比学习框架为化学领域的探索和药物发现提供了巨大的可能性。

论文地址：https://arxiv.org/pdf/2109.08830v3.pdf

标题：洛桑联邦理工 | Generative power of a protein language model trained on multiple sequence alignments（在多序列比对上训练的蛋白质语言模型的生成能力）了解详情

作者：Damiano Sgarbossa, Umberto Lupo, Anne-Florence Bitbol

简介：本文提出一种基于蛋白预训练模型的生成方法。以Meta训练的诸多Transformer模型为代表的蛋白质预训练模型捕捉到了蛋白质家族的特征，并学习了与蛋白质结构和功能相关的约束，它们为产生属于蛋白质家族的新序列提供了可能性。基于多序列比对训练的蛋白质语言模型，如MSA Transformer，是实现这一目标的有力工具。本文提出并测试了一种直接使用遮蔽的语言建模任务生成序列的迭代方法。本文证明，所产生的序列在同源性、共进化和基于结构的测量方面通常比Potts模型所产生的序列得分要高，甚至比天然序列得分要高。此外，尽管Potts模型更好地再现了一阶和二阶统计，MSA Transformer比Potts模型更好地再现了天然数据的高阶统计和序列在序列空间的分布。简而言之，MSA Transformer是蛋白质序列生成和蛋白质设计的有力候选者。

论文地址：https://arxiv.org/pdf/2204.07110v1.pdf

标题：哥本哈根大学、IBM | BioAct: Biomedical Knowledge Base Construction using Active Learning（BioAct: 利用主动学习构建生物医学知识库）了解详情

作者：Dustin Wright, ProfileKristen L. Beck等

简介：本文展示了预训练与主动学习在医学上的应用。自动构建知识库的主要技术是信息提取，特别是诸如命名实体识别或关系提取的任务。主动学习的目的是最大限度地减少人工标注的成本，只需要对数据中较小和较有用的部分进行标注。基于这一动机，本文设计了一种方法来快速构建高质量的数据集，以实现生物医学知识库的构建。该方法被命名为BioAct，它基于SciBERT等预训练模型构成的自动注释方法，使用主动学习来创建生物领域的训练数据集。除了BioAct方法本身，本文还公开发布了一个由BioAct构建的关于抗菌性的注释数据集。此外，本文使用MegaRes和CARD知识库模拟了一个知识库构建任务，以提供关于注释数据集对该任务的有用性的见解和经验教训。

论文地址：https://doi.org/10.1101/2022.04.14.488416

研究动态

标题：加拿大阿尔伯塔大学、湖首大学 | FREDA: Flexible Relation Extraction Data Annotation（灵活的关系抽取和数据标注）了解详情

作者：Michael Strobl, Amine Trabelsi, Osmar Zaiane

简介：本文研究基于BERT优化的模型高效高质量生成关系抽取数据集。为了有效地训练精确的关系抽取模型，需要足够且正确标记的数据。很难获得充分标记的数据，对此类数据进行注释是一项棘手的任务。如果做得准确，以前的工作表明：要么必须牺牲准确性，要么任务非常耗时。作者提出一种方法，以便快速生成用于关系提取任务的高质量数据集。神经模型经过训练，可以在创建的数据集上进行关系提取，取得了很好的效果，并且可以很好地推广到其他数据集。在该研究中，作者能够在合理的时间内为19种关系注释10022个句子，并为每种关系训练一个常用的基线模型。

论文下载：https://arxiv.org/pdf/2204.07150.pdf

标题：有人预测GPT-4长这样：比GPT-3略大、纯文本、更注重最优计算与对齐了解详情

简介：近日，Cambrian AI的分析师Alberto Romero便发表了一篇文章，基于OpenAI首席执行官Sam Altman在数月前的说法，推测GPT-4即将在今年7月到8月发布，并基于Altman在去年的一场问答，对GPT-4的特征进行了预测。模型大小上GPT-4将比GPT-3大，但与目前最大的模型相比不是很大。最优性上GPT-4 将实现对参数化和比例法则的新优化见解。多模态上GPT-4将是一个纯文本模型，而不是多模态模型。OpenAI希望在完全跳到像DALL·E这样的多模态模型之前先充分利用好语言模型。稀疏性上按照GPT-2和GPT-3的趋势，GPT-4将是一个密集模型（所有参数将用于处理任何给定的输入）。在未来，稀缺性将变得更加重要。对齐上GPT-4将比GPT-3更对齐，其将从InstructGPT进行学习，而InstructGPT是根据人类的反馈进行训练的。不过，人工智能的对齐还有很长的路要走，应该仔细评估所做出的工作，而不应该对此进行炒作。

如果你正在从事或关注预训练学习研究、实现与应用，欢迎加入“智源社区-预训练-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

请扫描下方二维码加入预训练群（备注：“姓名+单位+预训练”才会验证进群哦）

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/666763

《预训练周刊》第44期： 相邻注意力、变换器修剪、GPT-4预测

《预训练周刊》第44期：相邻注意力、变换器修剪、GPT-4预测