当前位置:   article > 正文

《预训练周刊》第36期: 谷歌提出梯度最大化增长方法GradMax

efficient large scale language modeling with mixtures of experts

No.36

智源社区

预训练组

cad01e943a10a67fddcacd110f4d4aa1.png

研究

观点

资源

活动

关于周刊

本期周刊,我们选择了11篇预训练相关的论文,涉及优化器、稀疏语言模型、神经网络结构、自增长网络、视频摘要、多模态、机器翻译、句子表示、图像理解、图像分类和神经网络理解的探索。此外,在研究动态方面,我们选择了1篇预训练资讯,将介绍文本生成方面的一些最新内容。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

(本期贡献者:申德周 翟珂 吴新刚)

2abb3ad2031d36425dd6f3828a1ec471.png

b8ed9938e543af2a29f10f80e04f726a.png

718f68512b126623392ad90335f53859.png

2372cdb29d7329fe172ec17ec51bea16.png

b2cca40edc4043b8302fad939ee30100.png

论文推荐

标题:匹兹堡大学|SUPER-ADAM: Faster and Universal Framework of Adaptive Gradients(SUPER-ADAM:更快、更通用的自适应梯度框架)了解详情

作者:Feihu Huang, Junyi Li, Heng Huang

简介:本文提出了一个新的网络梯度求解方法。自适应梯度方法在解决许多机器学习问题。虽然采用了多种自适应梯度方法。最近研究,他们主要集中在经验或理论方面,也只能通过使用一些特定的自适应学习来解决特定的问题率。因此,需要为实用算法设计一个通用框架具有解决一般问题的理论保证的自适应梯度。为了填写这个差距,作者提出了一个更快和通用的自适应梯度框架(即,SUPER-ADAM)通过引入一个包含大多数现有的自适应梯度形式。此外,作者的框架可以灵活地集成动量和方差减少技术。特别是,作者的新颖框架为自适应梯度方法提供收敛分析支持非凸设置。在理论分析中,作者证明了作者的SUPER-ADAM算法可以实现最佳已知梯度,即随机一阶预言机(SFO),O(e^-3) 用于寻找非凸优化的鞍点,它匹配随机平滑非凸优化的下限。在数值实验中,作者采用各种深度学习任务来验证作者的算法始终优于现有的自适应算法。

代码下载:https://github.com/LIJUNYI95/SuperAdam

论文地址:https://arxiv.org/pdf/2106.08208v9.pdf

Hub地址:https://hub.baai.ac.cn/view/14104

标题:Meta|Efficient Large Scale Language Modeling with Mixtures of Experts(混合专家的高效大规模语言建模)了解详情

作者:Mikel Artetxe, Ves Stoyanov等

简介:本文介绍了稀疏语言模型的优点。专家层 (MoE) 的混合通过条件计算实现语言模型的有效扩展。本文提出了一个关于自回归MoE语言模型在各种设置中与密集模型相比如何扩展的详细实证研究:域内和域外语言建模、零样本和少样本启动以及完全微调。除了微调,作者发现MoE的计算量要大得多高效的。在更适度的训练预算下,MoE可以与密集的性能相媲美模型使用的计算量减少了约 4 倍。这个差距规模缩小,但作者最大的MoE模型(1.1T 参数)始终优于计算等效密集模型(6.7B 参数)。总体而言,跨任务和领域,性能差距各不相同,建议MoE和密集模型以不同的方式泛化,值得未来研究。

代码下载:https://github.com/pytorch/fairseq/tree/main/examples/moe_lm

论文地址:https://arxiv.org/pdf/2112.10684.pdf

Hub地址:https://hub.baai.ac.cn/view/14105

标题:谷歌|HYPERTRANSFORMER: MODEL GENERATION FOR SUPERVISED AND SEMI-SUPERVISED FEW-SHOT LEARNING(超变换器:监督和半监督生成模型的小样本学习)了解详情

作者:Andrey Zhmoginov, Mark Sandler, Max Vladymyrov

简介:本文提出了一个新型变换器神经网络结构。HyperTransformer,是一种基于变换器的模型,直接来自支持样本用于生成卷积神经网络 (CNN) 的权重。由于对生成的小型CNN的依赖特定任务的模型由大容量的Transformer模型编码,作者有效地将个别任务大型任务空间的复杂性与复杂性解耦。作者的方法对于无法学习固定通用任务无关嵌入的小目标CNN架构特别有效,当有关任务的信息时,可以获得最佳和更好的性能可以调制所有模型参数。对于更大的模型,作者发现单独生成最后一层可以产生比使用最先进的方法获得那些模型更有竞争力或更好的结果,同时是端到端可微分的。最后,作者将方法扩展到使用未标记的半监督机制支持集中的样本并进一步提高少样本性能。

论文地址:https://arxiv.org/pdf/2201.04182v1.pdf

Hub地址:https://hub.baai.ac.cn/view/14126

标题:谷歌|GRADMAX: GROWING NEURAL NETWORKS USING GRADIENT INFORMATION(GRADMAX:使用梯度信息增长神经网络)了解详情

作者:Utku Evci, Fabian Pedregosa等

简介:本文介绍了一种新颖的神经网络设计方法。神经网络的架构和参数通常是独立优化的,无论何时修改架构,都需要对参数进行昂贵的重新训练。在这项工作中,作者转而专注于发展架构无需昂贵的再训练。作者提出了一种添加新神经元的方法,在不影响已经学过的内容的情况下进行训练,同时提高训练动量。作者通过最大化新的梯度,来实现后者权重并通过奇异值分解(SVD)有效地找到最佳初始值。作者称这种技术为梯度最大化增长(GradMax) ,并展示其在各种视觉任务和架构中的有效性。

代码下载:https://github.com/google-research/growneuron

论文地址:https://arxiv.org/pdf/2201.05125v1.pdf

Hub地址:https://hub.baai.ac.cn/view/14128

标题:墨尔本大学、清华大学 | Video Summarization Based on Video-text Representation(基于视频-文本表示的视频摘要)了解详情

作者:Li Haopeng, Ke Qiuhong, Gong Mingming, Zhang Rui

简介:本文研究基于预训练多模态Encoder的渐进式视频摘要的新方法。现代视频摘要方法基于深度神经网络,需要大量带注释的数据进行训练。然而,现有的视频摘要数据集规模较小,容易导致深度模型的过度拟合。考虑到大规模数据集标注的耗时耗力,作者提出了一个用于视频摘要任务的多模态自监督学习框架来获取视频的语义表示。具体来说,作者:(1)探索视频的视觉信息和文本信息之间的语义一致性,以便在新收集的“视频-文本对”数据集上对多模态编码器进行自我监督预训练。(2)引入了一种渐进式视频摘要方法,逐步确定视频中的重要内容以生成更好的摘要。(3)提出了一种基于视频分类的客观评价框架来衡量视频摘要的质量。与现有技术相比,实验证明了作者的方法在等级相关系数、F-score和所提出的客观评估方面的有效性和优越性。

论文下载:https://arxiv.org/pdf/2201.02494.pdf

Hub地址:https://hub.baai.ac.cn/view/13961

标题:京东、上海交大 | Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular Vision-Language Pre-training(基于多粒度视觉语言预训练的通用编解码网络)了解详情

作者:Yehao Li,Jiahao Fan,Yingwei Pan,等

简介:本文研究基于Transformer的多模态表示提取与语言建模的视觉语言预训练模型。作者提出了一种可预先训练的通用编码器-解码器网络:Uni-EDEN,以促进视觉语言感知和生成。Uni-EDEN是一种基于双流转换器的结构,由三个模块组成:分别学习每个模态表示的对象和句子编码器,以及通过模态间交互实现多模态推理和句子生成的句子解码器。考虑到每个图像的语言表示可以跨越该层次结构中的不同粒度,包括从简单到全面的单个标签、短语和自然句子,作者通过多粒度视觉语言代理任务对Uni-EDEN进行预训练:蒙面对象分类,遮罩区域短语生成、图像句子匹配和遮罩句子生成。通过这种方式,Uni-EDEN被赋予了多模态表示提取和语言建模的能力。大量的实验通过将Uni-EDEN微调为四种视觉语言感知和生成下游任务,证明了Uni-EDEN令人信服的通用性。

论文下载:https://arxiv.org/pdf/2201.04026.pdf

Hub地址:https://hub.baai.ac.cn/view/14018

标题:谷歌 | Towards the Next 1000 Languages in Multilingual Machine Translation: Exploring the Synergy Between Supervised and Self-Supervised Learning(迈向多语种机器翻译的下1000种语言:探索监督学习与自我监督学习的协同)了解详情

作者:Aditya Siddhant,Ankur Bapna,Orhan Firat,等

简介:本文是多语言机器翻译模型的又一重大里程碑。为实现通用翻译:大规模多语言机器翻译仅仅通过在更多并行数据上进行训练来扩展多语言机器翻译系统是不可扩展的,因为低资源和非英语为中心的语言对的标记数据的可用性是极其有限的。为此,作者提出了一种实用的方法:根据“不同语言对”的数据可用性,使用监督和自我监督的混合目标,构建涵盖数百种语言的多语言机器翻译模型。作者证明这两种训练模式之间的协同作用使该模型能够在零资源环境下生成高质量的翻译,甚至超过中低资源语言的监督翻译质量。为了证明该方法的可扩展性,作者使用200多种语言对模型进行了训练,并在几个之前从未研究过的语言上实现了零资源翻译的高性能。作者希望该研究结果能成为下千种语言翻译的垫脚石。

论文下载:https://arxiv.org/pdf/2201.03110

Hub地址:https://hub.baai.ac.cn/view/14007

标题:北航、微软 | PromptBERT: Improving BERT Sentence Embeddings with Prompts(用提示改进BERT语句嵌入)了解详情

作者:Ting Jiang,Shaohan Huang,等

简介:本文研究Prompt技术对预训练模型的提优。原始BERT在句子语义相似度方面的性能差的问题,作者发现不令人满意的性能主要是由于静态标记嵌入偏差和无效的BERT层,而不是句子嵌入的高余弦相似性。作者提出了一种基于提示的句子嵌入方法PromptBERT:该方法可以减少标记嵌入的偏差,并使原始的BERT层更加有效。作者讨论了基于提示的句子嵌入的两种提示表示方法和三种提示搜索方法。此外,作者通过模板去噪技术提出了一种新的无监督训练目标,大大缩短了监督和无监督设置之间的性能差距。作者在非微调和微调设置上评估了该方法,实验表明:(1)在STS任务上,即使是非微调方法也优于诸如无监督ConSERT的微调方法;(2)在无监督和有监督的情况下,作者的微调方法优于最先进的方法SimCSE;(3)在无监督的情况下,作者对BERT和RoBERTa的评分比SimCSE分别提高了2.29分和2.58分。

论文下载:https://arxiv.org/pdf/2201.04337

Hub地址:https://hub.baai.ac.cn/view/14050

标题:康奈尔大学、哥本哈根大学等 | Language-driven Semantic Segmentation(语言驱动的语义分割)了解详情

作者:Boyi Li, Kilian Q. Weinberger等

简介:本文提出了LSeg,一种用于语言驱动的预训练语义图像分割模型。LSeg使用文本编码器来计算描述性输入标签的嵌入,同时使用基于Transformer的图像编码器来计算输入图像的密集像素嵌入,其中图像编码器的训练任务为使像素嵌入与相应语义类别的文本嵌入相一致。文本嵌入提供了一个灵活的标签表示,其中语义相似的标签映射到嵌入空间中的相似区域,这使得LSeg在测试时能够概括到以前未见过的类别,而不需要重新训练,甚至不需要一个额外的训练样本。本文证明,与现有的零样本和小样本语义分割方法相比,本文的方法实现了极具竞争力的零样本性能,在某些测试数据集上甚至与传统分割算法的准确性相匹配。

论文下载:https://arxiv.org/pdf/2201.03546v1.pdf

Hub地址:https://hub.baai.ac.cn/view/14179

标题:Deepmind、牛津等 | Pushing the limits of self-supervised ResNets: Can we outperform supervised learning without labels on ImageNet?(突破自监督ResNet的极限:我们能否在无标签ImageNet上超越监督学习?)了解详情

作者:Nenad Tomasev, Ioana Bica等

简介:本文提出了ReLICv2,它将不变性损失与对比性目标相结合,首次证明了在无标签的情况下学习到的表征能够持续超越ImageNet上强大的监督基线,同时它也是第一个使用标准ResNet架构的在同类比较中持续优于监督基线的表征学习方法。ReLICv2在ImageNet上使用ResNet50架构的线性评估取得了77.1%的最高分类准确率,使用更大的ResNet模型取得了80.6%的最高分类准确率,性能优于DINO和MoCo v3,并且在参数数量相当的情况下表现出与EsViT类似的性能,尽管这些方法使用了更强大的架构和更多的训练程序。本文的结果表明,将在RELICv2中形成的见解与最近的架构创新结合起来,可以进一步改善表征学习和更强大的基础模型。

论文下载:https://arxiv.org/pdf/2201.05119v1.pdf

Hub地址:https://hub.baai.ac.cn/view/14183

标题:谷歌大脑等 | When less is more: Simplifying inputs aids neural network understanding(少即是多:简化输入有助于神经网络的理解)了解详情

作者: Sara Hooker, Tonio Ball等

简介:本文提出了对于输入简单性/复杂性的衡量标准,以及一个将这种标准纳入训练和推理的框架SimpleBits。在这项工作中,作者用预训练生成模型给出的预训练编码比特大小来衡量简化程度,并在训练和推理中最小化比特大小以简化输入。本文在多种情况下研究了这种简化的效果,常规训练、数据集浓缩和事后解释。首先,作者研究了输入简化和任务性能之间的权衡,对于包含干扰项的图像,这样的简化会去掉多余的信息。然后,对于数据集的浓缩,本文发现输入可以被简化而几乎没有准确性的下降。最后,当用于事后解释时,本文基于学习的简化方法提供了一个有价值的新工具来探索网络决策的基础。

论文下载:https://arxiv.org/pdf/2201.05610v1.pdf

Hub地址:https://hub.baai.ac.cn/view/14184

b493142e751f233c55cba84a27aec9fb.png

7869c1a4a403b9ea5dc4fd82d8978c58.png

7d230781888bece4d25377ba4c8ff0d9.png

310f3865eb74a209126147cece2d9991.png

9e12a6c7a49f1bd6c66209e2f630f4c0.png

研究动态

标题:微软、港中文等 | A Survey of Knowledge-Enhanced Text Generation(知识增强的文本生成综述)了解详情

作者: Sara Hooker, Tonio Ball等

简介:文本生成的目标是使机器用人类语言表达,为了更好地解决这个问题,研究人员考虑将输入文本以外的各种形式的知识纳入生成模型,这一研究方向被称为知识增强型文本生成。在这份综述报告中,作者对过去五年中关于知识增强型文本生成的研究进行了全面回顾。本文旨在回答知识增强型文本生成中经常出现的两个问题:如何获取知识和如何结合知识来促进文本生成。在知识融入的基础上,作者首先介绍了将知识融入文本生成的一般方法,并进一步讨论了一些具体的想法和技术方案,将知识融入到文本生成系统中。最后,本文回顾了各种文本生成的应用,以帮助从业者学会选择和运用这些方法。

论文下载:https://arxiv.org/pdf/2010.04389v3.pdf

Hub地址:https://hub.baai.ac.cn/view/14187

99ee5db96f93d7cc707dd1941848f623.png

如果你正在从事或关注预训练学习研究、实现与应用,欢迎加入“智源社区-预训练-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

请扫描下方二维码加入预训练群(备注:“姓名+单位+预训练”才会验证进群哦)

513ed1f0a7a59756e9193fdba4a5030e.png

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/354467
推荐阅读
相关标签
  

闽ICP备14008679号