赞
踩
作为科研人员,每天需要检索和浏览大量的学术文献,以获取最新的科技进展和研究成果。
然而,传统的检索和阅读方式已经无法满足科研人的需求。
ChatPaper,一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率,获取最新领域研究动态,让科研工作更加游刃有余。
结合前沿动态订阅功能,精选arXiv当日热门新论文,形成论文综述,让大家更加快速了解前沿动态。
如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达ChatPaper页面:https://www.aminer.cn/chat/g/
2023年7月7日精选新论文列表:
1.A Survey on Evaluation of Large Language Models 论文详情页
链接:https://www.aminer.cn/pub/64a78f1fd68f896efa01eae2/?f=cs
ChatPaper综述:这篇论文主要介绍了对大型语言模型(LLMs)的评估方法,并强调评估对于更好地理解其潜在风险以及促进其发展至关重要。摘要中指出,过去几年已经有很多工作从不同的角度对LLMs进行了评估,包括评估任务的范畴、评估方法和基准、以及在不同任务中LLMs的成功和失败案例等。论文还提出了未来在LLMs评估方面可能面临的挑战,并呼吁将评估作为一个重要的学科来辅助LLMs的发展。最后,论文提供了一个相关的开源材料链接,供研究人员参考。
2.Lost in the Middle: How Language Models Use Long Contexts 论文详情页
链接:https://www.aminer.cn/pub/64a78f1fd68f896efa01eb25/?f=cs
ChatPaper综述:这项研究说明了语言模型在使用长上下文时遇到的问题。虽然现代的语言模型具备处理长上下文的能力,但对于它们如何有效利用较长的上下文知识的了解还相对较少。该研究分析了语言模型在多文档问答和键值检索这两个需要在输入上下文中确定相关信息的任务上的表现。研究发现,当相关信息出现在输入上下文的开头或结尾时,性能往往最好;而当模型需要访问位于较长上下文的中间位置的相关信息时,性能会显著下降。此外,即使对于专门处理长上下文的模型,随着输入上下文的增长,性能也会显著降低。这项分析提供了对语言模型如何利用其输入上下文的更好理解,并为未来的长上下文模型提供了新的评估协议。
3.VideoGLUE: Video General Understanding Evaluation of Foundation Models 论文详情页
链接:https://www.aminer.cn/pub/64a78f1fd68f896efa01eb1f/?f=cs
ChatPaper综述:该研究指出了现有的基础模型在视频理解能力上存在的问题。首先,基础模型在视频理解方面表现不如在自然语言和图像理解方面表现出色。其次,对于充满运动的视频分类、时间定位和理解多个动作的任务来说,预训练数据中包含视频模态的模型比只包含图像模态的模型表现更好。最后,对于视频任务,通过轻微的模型自适应(如冻结FM骨干),视频模态的模型可以表现得很好,而在完全的端到端微调中,图像模态的模型优势更大。这些观察结果揭示了研究视频专注的基础模型的需要和巨大机遇,以及评估基础模型时任务和自适应方法的重要性。
4.Focused Transformer: Contrastive Training for Context Scaling 论文详情页
链接:https://www.aminer.cn/pub/64a78f1fd68f896efa01eb23/?f=cs
ChatPaper综述:文章指出了在使用大型语言模型时存在的一个问题,即有效上下文长度的限制。为了解决这个问题,作者提出了一种名为Focused Transformer (FoT)的技术,通过对比学习的训练过程来增强(key, value)空间的结构,从而扩展上下文长度。通过对 3 B 3B 3B和 7 B 7B 7B OpenLLaMA检查点的Fine-tuning,得到了名为LongLLaMA的模型,这些模型在需要较长上下文的任务上取得了进展。此外,作者还展示了LongLLaMA模型在 256 k 256 k 256k上下文长度下的优秀表现。文章说明了一个被称为分心问题的显著挑战,其中与不同语义值相关联的键可能重叠,使它们难以区分。作者通过引入对比学习的方法来解决这个问题。
5.Training Models to Generate, Recognize, and Reframe Unhelpful Thoughts 论文详情页
链接:https://www.aminer.cn/pub/64a78f1fd68f896efa01e973/?f=cs
ChatPaper综述:指出了认知方法在提升幸福感方面的局限性,即在自助形式中普及应用的难题。这是因为缺乏具体和多元化的实践材料的原因。为了解决这个问题,该研究尝试利用现有的语言模型来生成大量的特定上下文的非有益思维模式的实践材料,并生成适当的积极修正建议。通过提出一个新的数据集PATTERNREFRAME,包含大约10k个针对特定角色的非有益思维模式的示例,以及约27k个积极修正。通过使用这个数据集对当前模型进行训练和/或评估,我们发现现有的模型已经可以成为辅助生成大量量身定制实践材料和假设的强大工具,无需或仅需要最少额外的模型训练。
6.Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers 论文详情页
链接:https://www.aminer.cn/pub/64a78f1fd68f896efa01eb31/?f=cs
ChatPaper综述:论文指出了使用大规模语音语料库训练的自动语音识别模型Whisper在面对真实背景声音(如音乐)时具有很强的鲁棒性,但其音频表示实际上并不是噪声不变的,而是与非语音声音高度相关,这表明Whisper在噪声类型的条件下识别语音。基于这个发现,研究人员构建了一个统一的音频标记和语音识别模型Whisper-AT,通过冻结Whisper的主干部分,并在其之上训练一个轻量级的音频标记模型。在额外不到1%的计算成本下,Whisper-AT能够在一次前向传递中识别音频事件和口语文本。
7.mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding 论文详情页
链接:https://www.aminer.cn/pub/64a78f10d68f896efa01de33/?f=cs
ChatPaper综述:说明了现有的多模型大型语言模型在OCR-free文档理解方面存在的问题。这些模型在浅层无OCR文本识别方面表现出了很好的零样本能力,但是在没有领域内的训练的情况下,它们往往忽略了OCR的细粒度特征,如复杂的表格或大块的文本,这些特征对于OCR-free文档理解是至关重要的。为了解决这个问题,论文提出了基于mPLUG-Owl的mPLUG-DocOwl模型,通过在语言模型、通用视觉-语言模型和文档指令调优数据集上联合训练模型来加强OCR-free文档理解能力。同时,论文还建立了一个用于评估OCR-free文档指令理解能力的数据集LLMDoc。实验结果表明,该模型在文档理解方面优于现有的多模型模型,并且在各种下游任务上具有良好的泛化能力。
8.Synthesizing Artistic Cinemagraphs from Text 论文详情页
链接:https://www.aminer.cn/pub/64a78f1fd68f896efa01eb38/?f=cs
ChatPaper综述:文章说明了利用文本描述自动生成艺术风格的cinemagraphs所面临的困难。针对这些困难,文章提出了一种通过从单个文本提示中合成图像对的方法:一张艺术图像和其与之对应的逼真图像。通过利用现有的自然图像和视频数据集,可以准确地分割逼真图像并预测合理的运动。然后,预测的运动可以转移到艺术图像上,从而创建最终的cinemagraph。研究结果表明,该方法在创建自然风景、艺术以及奇幻场景的cinemagraphs方面优于现有方法。此外,文章还展示了两个扩展应用:将现有绘画图像动画化和使用文本控制运动方向。
9.Causal Reinforcement Learning: A Survey 论文详情页
链接:https://www.aminer.cn/pub/64a63bbad68f896efaec4753/?f=cs
ChatPaper综述:文中说明了在现实世界中应用强化学习方法仍然具有挑战性的原因。其中一个主要障碍是强化学习代理缺乏对世界的基本理解,因此必须通过许多试错交互来从头开始学习。他们可能还面临着解释他们决策的挑战,以及推广所获得的知识的困难。因果性能够以系统的方式形式化知识并利用不变性进行有效的知识转移,因此因果性在加强强化学习算法中具有显著优势。因此,因果关系强化学习作为强化学习的一个子领域出现,旨在通过将因果关系纳入学习过程来增强现有算法的性能。文中还总结了因果关系强化学习的相关文献,并根据目标问题和方法学对现有的因果关系强化学习方法进行了分类和系统回顾。最后,文中还概述了该新兴领域中的未解决问题和未来方向。
10.A Survey on Graph Classification and Link Prediction based on GNN 论文详情页
链接:https://www.aminer.cn/pub/64a39885d68f896efa31e2b3/?f=cs
ChatPaper综述:这篇综述文章旨在介绍基于图神经网络的图分类和链路预测方法。传统的卷积神经网络只能处理欧几里得空间数据,无法处理以图数据表示的现实生活中的各种场景,包括交通网络、社交网络和引用网络等。将卷积神经网络应用于图数据分析和处理的关键步骤在于构建图卷积运算符和图池化运算符。本文首先详细介绍了图卷积神经网络的基本原理,然后阐述了基于注意力机制和自编码器的图神经网络模型,总结了它们在节点分类、图分类和链路预测等任务中的应用以及相关数据集。
使用ChatPaper的方法很简单,打开AMiner首页,从页面顶部导航栏或者右下角便可进入ChatPaper页面。
在ChatPaper页面中,可以选择基于单篇文献进行对话和基于全库(个人文献库)对话,可选择上传本地PDF或者直接在AMiner上检索文献。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。