大模型论文周报 | 来自北大、百度、DeepMind、OpenAI等机构前沿论文研究

作者：你好赵伟 | 2024-04-20 13:18:23

踩

大模型论文

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

大模型又可以称为Foundation Model模型，模型通过亿级的语料或者图像进行知识抽取，学习进而生产了亿级参数的大模型。大模型的出现迎来了AI研究的新时代，其所带来的结果提升十分显著，超越了很多领域中针对研究问题设计特定算法实现的提升。

本周精选了10篇大模型领域的优秀论文，分别来自北大、百度、DeepMind、OpenAI等机构。

为了方便大家阅读，只列出了论文标题、作者、论文链接等信息，如果感兴趣可扫码查看原文，PC端数据同步（收藏即可在PC端查看），每日新论文也可登录小程序查看。

1.A Survey for In-context Learning论文详情页

作者：Qingxiu Dong,Lei Li,Damai Dai,Ce Zheng,Zhiyong Wu,Baobao Chang,Xu Sun,Jingjing Xu,Lei Li,Zhifang Sui

AI华同学综述（大模型驱动）：本文综述了近年来自然语言处理领域中最新进展、挑战和未来工作。我们首先提出了一种形式化的ICL定义,并指出其与相关研究的相关性。然后,我们组织并讨论了先进的ICL技术,包括训练策略、激励策略以及其他各种策略。最后,我们提供了ICL面临的挑战及其潜在的方向。

2.Towards Table-to-Text Generation with Pretrained Language Model: A Table Structure Understanding and Text Deliberating Approach论文详情页

作者：Miao Chen,Xinjiang Lu,Tong Xu,Yanyan Li,Zhou Jingbo,Dejing Dou,Hui Xiong

AI华同学综述（大模型驱动）：神经图到文本生成我们提出了一种基于预处理语言模型的表格结构理解和话语行为方法。具体来说,我们提出了一个三层的多头注意网络来实现表格结构可靠的文本生成模型。此外,我们引入了一种多转解码框架,以增强用于表格描述的打磨文本的能力。在两个公共数据集上的实证研究证明了我们的方法可以为各种类型的表格生成精确而流利的描述性文本。

3.Data Distributional Properties Drive Emergent In-Context Learning in Transformers论文详情页

作者：Stephanie C. Y. Chan,Adam Santoro,Andrew K. Lampinen,Jane X. Wang,Aaditya Singh,Pierre H. Richemond,Jay McClelland,Felix Hill

AI华同学综述（大模型驱动）：在本文中,我们探讨了大规模转换模型的上下文学习行为。当训练数据具有特定的分布特性(如连贯性),例如聚类的流动性和经常出现的类数量,时,它也可变而更加强壮。这些属性是自然语言中自然语言特征的典型例子,但也是其他广泛领域自然语言数据的灵感来源。它们也远离了常规、即标准监督学习中使用的训练分布。最后,我们得出结论,这项研究表明了转换架构与数据的特殊属性结合在一起,以驱动大型语言模型的上下文学习行为。

4.Generative Language Models and Automated Influence Operations: Emerging Threats and Potential Mitigations论文详情页

作者：Josh A. Goldstein,Girish Sastry,Micah Musser,Renee DiResta,Matthew Gentzel,Katerina Sedova

AI华同学综述（大模型驱动）：生殖器语言模型的改进使得它们可以产生令人信服和不可靠的文本输出。为了罪犯,这些语言模型带来了自动创建令人信服和不可靠文本的承诺。本文评估了未来影响操作如何变化,以及采取何种措施来防御这场威胁。我们指出潜在的变化,并为影响操作的进程提供框架。

5.OPD@NL4Opt: An ensemble approach for the NER task of the optimization problem论文详情页

作者：Kangxu Wang,Ze Chen,Jiewen Zheng

AI华同学综述（大模型驱动）：在本文中,我们提出了一种NL4Opt竞争任务的集成方法。为了这项任务,我们首先改进基于竞争数据库的预训练语言模型。然后,我们采用了不同的学习频率和敌对训练策略来增强该模型的通用性和鲁棒性。此外,我们使用了一个模块组件方法来完成最终预测,该方法实现了93.3%的F1分数,并在NER任务中获得第二名。

6.A Survey on Knowledge-Enhanced Pre-trained Language Models论文详情页

作者：Chaoqi Zhen,Yanlei Shang,Xiangyu Liu,Yifei Li,Yong Chen,Dell Zhang

AI华同学综述（大模型驱动）：自然语言处理的基线方法已经成功地用于许多NLP任务。然而,它们面临着大量的挑战,包括不准确的解释能力、弱义的推理能力和需要耗资昂贵的注释数据。通过将内部知识集成到PLM中来解决这些挑战,我们提出了一种新的自然语言处理方法。该方法结合了来自各种领域的知识格式和不同形式的培训资源。

7.SantaCoder: don't reach for the stars!论文详情页

作者：Loubna Ben Allal,Raymond Li,Denis Kocetkov,Chenghao Mou,Christopher Akiki,Carlos Munoz Ferrandis,Niklas Muennighoff......

AI华同学综述（大模型驱动）：这项技术报告概述了该项目到2022年12月结束的时间表。它详细描述了该项目的现状,并指出了对模型架构和训练数据的实验。我们将培训大型语法分析器(如基线)中的一组参数模型,并在多语言环境中评估它们。我们发现过滤近似性可以进一步提高性能,并且令人惊讶的是,选择包含5个GitHub明星的源文件会损害性能严重。

8.Language Models are Drummers: Drum Composition with Natural Language Pre-Training论文详情页

作者：Li Zhang,Chris Callison-Burch

AI华同学综述（大模型驱动）：为了解决这个问题,我们提出了持续的工作中的工作和初步发现,并对大规模语言模型从语言到音乐传输知识的可能性进行了研究。通过这样做,一个最大的、最先进的(GPT3)模型可以产生合理的钢管楔形,而未经培训的模型没有这种能力。评估生成的音乐是有挑战性的,比方说是评估带有很少的前景的钢管楔形。因此,我们提出了一种定制的结构评价方法,并将其与人类专业人士演奏的钢管楔形相比较。我们的发现表明,使用大规模语言模型进行广泛的语音转换学习是可实现且有前途的。

9.Massive Language Models Can Be Accurately Pruned in One-Shot论文详情页

作者：Elias Frantar,Dan Alistarh

AI华同学综述（大模型驱动）：我们首次证明了将大规模生成预制变换器(GPT)家族模型改进到至少50%的平滑性可以实现。通过一种叫做稀疏格式UPT的新修剪方法来实现这一点。当应用于最大可用的开放源模型OPT175和布鲁姆176时,我们能够达到60%的平滑性,与不增加复杂性的任何损失相比,几乎无法忽略数十亿磅重的重量。

10.Human-level play in the game of Diplomacy by combining language models with strategic reasoning论文详情页

作者：Anton Bakhtin,Noam Brown,Emily Dinan,Gabriele Farina,Colin Flaherty,Daniel Fried,Andrew Goff,Jonathan Gray,Hengyuan Hu......

AI华同学综述（大模型驱动）：我们介绍了塞奇罗,第一个在互动游戏中达到人类水平的人工智能系统。该系统融合了一套语言模型和规划和强化学习算法,通过推断球员的话语中的想法和愿望来产生对话。塞奇罗在40个匿名在线比赛中获得了超过人类平均分数的两倍的成绩。

往期精彩文章推荐

记得关注我们呀！每天都有新知识！

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了900多位海内外讲者，举办了逾450场活动，超500万人次观看。

我知道你

在看

哦

点击 阅读原文 解锁更多精彩！

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/457511