赞
踩
原标题: NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models
作者: Chankyu Lee, Rajarshi Roy, Mengyao Xu, Jonathan Raiman, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
机构: NVIDIA Wei Ping
摘要: 仅使用解码器的大型语言模型(LLM)嵌入模型开始在通用文本嵌入任务中超越基于BERT或T5的嵌入模型,包括基于密集向量的检索。在这项工作中,我们引入了NV-Embed模型,采用多种架构设计和训练流程,显著提高LLM作为多功能嵌入模型的性能,同时保持其简单性和可重现性。对于模型架构,我们提出了一个潜在的注意力层来获取汇总嵌入,与使用LLMs中的平均汇总或最后一个标记嵌入相比,它始终改善了检索和下游任务的准确性。为了增强表示学习,我们在对比训练期间去除了LLMs的因果注意力掩码。对于模型训练,我们引入了一个两阶段的对比指导调整方法。首先,它在检索数据集上使用带有指导的对比训练,利用批内负样本和策划的困难负样本。在第二阶段,它将各种非检索数据集融入到指导调整中,不仅提高了非检索任务的准确性,还改善了检索性能。通过结合这些技术,我们的NV-Embed模型仅使用公开可用的数据,在 Massive Text Embedding Benchmark(MTEB)上取得了69.32的创纪录高分,截至2024年5月24日,排名第一,涵盖了56个任务,包括检索、重新排序、分类、聚类和语义文本相似性任务。值得注意的是,我们的模型在MTEB基准测试中的15个检索任务中也取得了59.36的最高分(也称为BEIR)。我们将在此https URL上开源该模型。
论文链接: https://arxiv.org/pdf/2405.17428
其他链接: https://huggingface.co/nvidia/NV-Embed-v1
原标题: THREAD: Thinking Deeper with Recursive Spawning
作者: Philip Schroeder, Nathaniel Morgan, Hongyin Luo, James Glass
机构: 麻省理工学院
摘要: 大语言模型(LLMs)在各种环境中展现出了令人印象深刻的能力,但在上下文的长度和复杂性增加时仍然存在困难。为了解决这一挑战,我们提出了Thinking Recursively and Dynamically(ThReaD)。THREAD将模型生成框架构建为一个基于上下文的执行线程,可以完成运行或动态生成新线程。通过生成线程,线程可以将工作(例如思考、检索信息)转移到子线程,子线程只返回父线程所需的标记以完成其工作。实际上,这使得模型能够根据需要调整用于生成标记的中间工作量。我们将THREAD应用于LLM任务解决和问题回答的环境中,其中动态线程允许模型将给定任务或问题递归分解为逐渐简化的子问题,这些子问题可以由单独的子线程解决。我们使用少样本学习方法实现的THREAD在代理任务和数据驱动的问题回答的多个基准测试中进行了测试。THREAD在这些基准测试中,包括ALFWorld、TextCraft和WebShop,以及两个新的基准测试DataCommons QA和MIMIC-III ICU QA上,与GPT-4和GPT-3.5一起取得了最先进的性能。此外,THREAD在包括Llama-3-8b和CodeLlama-7b在内的较小模型上,优于现有框架10%至50%的绝对点数。
论文链接: https://arxiv.org/pdf/2405.17402
原标题: The Expressive Capacity of State Space Models: A Formal Language Perspective
作者: Yash Sarrof, Yana Veitsman, Michael Hahn
机构: 萨尔兰大学 德国 Uni-saarland 德国
摘要: 最近,基于线性状态空间模型(SSM)的循环模型在语言建模(LM)方面表现出有希望的性能,与Transformer相竞争。然而,对这种模型的原则能力的理解还很有限,这可能为寻找更好的LM架构提供有用的指导。我们对这种SSM的容量进行了全面的理论研究,将其与Transformer和传统的RNN进行了比较。我们发现,SSM和Transformer具有重叠但不同的优势。在无星状态跟踪中,SSM实现了对于Transformer难以准确表示的问题的直接和精确解决方案。它们还可以在不模拟堆栈的情况下,以最佳内存模型有界的分层结构。另一方面,我们确定了当前SSM中限制其表达能力的设计选择。我们讨论了对SSM和LM研究的影响,并在最近的SSM“Mamba”上通过实证验证了结果。
论文链接: https://arxiv.org/pdf/2405.17394
原标题: MindMerger: Efficient Boosting LLM Reasoning in non-English Languages
作者: Zixian Huang, Wenhao Zhu, Gong Cheng, Lei Li, Fei Yuan
机构: 南京大学 卡内基梅隆大学 上海人工智能实验室
摘要: 推理能力对于大语言模型(LLMs)至关重要,但是英语和非英语语言之间存在明显差距。为了弥合这种差距,一些研究将LLMs微调以重新学习非英语语言的推理能力,而其他研究则将非英语输入替换为外部模型的输出,例如英语翻译文本,以规避LLMs理解非英语的挑战。不幸的是,这些方法通常未充分利用LLMs内置的熟练推理和有用的语言理解能力。为了更好地利用LLMs中的推理和语言理解能力,我们提出了一种新方法,即MindMerger,它将LLMs与多语言模型的外部语言理解能力合并,以提高多语言推理性能。此外,引入了一个两步训练方案,首先训练将外部能力嵌入LLMs,然后训练外部能力和LLMs内置能力的协同利用。在三个多语言推理数据集和一个语言理解数据集上的实验证明,MindMerger始终优于所有基准方法,特别是在资源匮乏的语言中。在不更新LLMs参数的情况下,MGSM数据集上所有语言和资源匮乏语言的平均准确率分别提高了6.7%和8.0%。
论文链接: https://arxiv.org/pdf/2405.17386
原标题: Unlocking the Secrets of Linear Complexity Sequence Model from A Unified Perspective
作者: Zhen Qin, Xuyang Shen, Weigao Sun, Dong Li, Stan Birchfield, Richard Hartley, Yiran Zhong
机构: 清华大学 香港中文大学 南京大学 澳大利亚国立大学
摘要: 我们提出了线性复杂度序列模型(LCSM),这是一个综合解决方案,将各种序列建模技术与线性复杂度相结合,包括线性注意力、状态空间模型、长卷积和线性RNN,融合在一个框架中。我们的目标是通过分析每个组件的影响,从一个连贯而流畅的视角来增强对这些模型的理解。具体来说,我们将这些模型的建模过程分为三个不同的阶段:扩展(Expand)、振荡(Oscillation)和收缩(Shrink)(EOS),每个模型都有其特定的设置。扩展阶段涉及将输入信号投影到高维记忆状态上。然后,在振荡阶段对记忆状态进行递归操作。最后,在收缩阶段将记忆状态投影回低维空间。我们进行了全面的实验,分析了不同阶段设置对语言建模和检索任务的影响。我们的结果表明,数据驱动方法对语言建模中三个阶段的有效性至关重要,而手工方法在检索任务中表现更好。
论文链接: https://arxiv.org/pdf/2405.17383
原标题: Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention
作者: Zhen Qin, Weigao Sun, Dong Li, Xuyang Shen, Weixuan Sun, Yiran Zhong
机构: 清华大学 北京大学
摘要: 我们提出了 Lightning Attention,这是第一个线性注意力实现,可以在固定内存消耗下保持各种序列长度的恒定训练速度。由于累积求和操作(cumsum)存在问题,先前的线性注意力实现无法在非正式环境中实现它们的理论优势。然而,通过利用不同的注意力计算策略来计算注意力的不同部分,这个问题可以得到有效解决。具体而言,我们将注意力计算分为块内和块间,并对块内使用传统的注意力计算,对块间使用线性注意力核技巧。这消除了线性注意力计算中对 cumsum 的需求。此外,通过前向和后向过程采用平铺技术,充分利用 GPU 硬件。为了提高准确性并保持有效性,我们引入了 TransNormerLLM(TNL),这是一个专为我们的 Lightning Attention 定制的新架构。我们在标准和自采集的数据集上进行了严格测试,涵盖不同的模型大小和序列长度。TNL 明显比其他语言模型更高效。此外,基准测试结果表明,TNL 与利用传统 Transformer 结构的最先进 LLMs 的性能相当。源代码发布在此 http URL。
论文链接: https://arxiv.org/pdf/2405.17381
Github: http://github.com/OpenNLPLab/TransnormerLLM https://github.com/opennlplab/transnormerllm
原标题: Federating Dynamic Models using Early-Exit Architectures for Automatic Speech Recognition on Heterogeneous Clients
作者: Mohamed Nabih Ali, Alessio Brutti, Daniele Falavigna
机构: 布鲁诺凯瑟基金会愿景中心
摘要: 自动语音识别模型需要大量的语音录音进行训练。然而,收集这样的数据通常很麻烦,并引起隐私问题。联邦学习已被广泛应用作为一种有效的分散式技术,可以在不同客户端上保持本地数据的同时协同学习共享的预测模型。不幸的是,客户端设备通常具有有限的计算和通信资源,这给大型模型带来了实际困难。此外,边缘设备的异构性使得生成适用于所有设备的单一模型不是最优选择。与最近的文献不同,该研究提出使用动态架构,通过使用早期退出解决方案,可以根据输入和操作条件调整其处理(即遍历的层)。这种解决方案属于部分训练方法的范畴,并带来了两个好处:在各种设备上使用单一模型;在本地训练后联合模型是直接的。对公共数据集的实验表明,我们提出的方法是有效的,并且可以与基本的联邦学习策略相结合。
论文链接: https://arxiv.org/pdf/2405.17376
原标题: A One-Layer Decoder-Only Transformer is a Two-Layer RNN: With an Application to Certified Robustness
作者: Yuhao Zhang, Aws Albarghouthi, Loris D’Antoni
机构: 威斯康星大学-麦迪逊分校
摘要: 本文揭示了一个关键的洞察力,即一个仅有解码器的Transformer等效于一个两层的循环神经网络(RNN)。基于这个洞察力,我们提出了ARC-Tran,一种新颖的方法,用于验证仅有解码器的Transformer对任意扰动空间的鲁棒性。与ARC-Tran相比,当前的鲁棒性验证技术要么仅限于特定的、保持长度的扰动,如单词替换,要么限于递归模型,如LSTMs。ARC-Tran通过精心管理位置编码以防止不匹配,并利用我们的关键洞察力实现精确和可扩展的验证,从而解决了这些限制。我们的评估结果显示,ARC-Tran(1)训练出比现有技术产生的模型更具鲁棒性的模型,并且(2)显示出所得模型的高认证准确性。
论文链接: https://arxiv.org/pdf/2405.17361
原标题: DoRA: Enhancing Parameter-Efficient Fine-Tuning with Dynamic Rank Distribution
作者: Yulong Mao, Kaiyu Huang, Changhao Guan, Ganglin Bao, Fengran Mo, Jinan Xu
机构: 北京交通大学 Université de Montréal
摘要: 微调大规模预训练模型本质上是一项资源密集型任务。虽然它可以增强模型的能力,但也会产生大量的计算成本,给下游任务的实际应用带来挑战。现有的参数高效微调(PEFT)方法,如低秩适应(LoRA),依赖于一个忽略了权重矩阵之间差异参数预算需求的旁路框架,这可能导致次优的微调结果。为了解决这个问题,我们引入了动态低秩适应(DoRA)方法。DoRA将高秩LoRA层分解为结构化的单秩组件,允许在训练过程中根据它们对特定任务的重要性动态修剪参数预算,从而充分利用有限的参数预算。实验结果表明,与LoRA和完整模型微调相比,DoRA能够取得竞争性的性能,并且在相同存储参数预算下胜过各种强基线。我们的代码可在此网址获得:https://github.com/xxx。
论文链接: https://arxiv.org/pdf/2405.17357
Github: https://github.com/Yulongmao1/DoRA/ https://github.com/yulongmao1/dora
原标题: Cost-efficient Knowledge-based Question Answering with Large Language Models
作者: Junnan Dong, Qinggang Zhang, Chuang Zhou, Hao Chen, Daochen Zha, Xiao Huang
机构: 香港理工大学 稻壳大学
摘要: 基于知识的问答(KBQA)被广泛应用于许多需要领域知识的场景中。大语言模型(LLMs)为KBQA带来了机遇,但其成本显著较高,并且在预训练期间缺乏领域特定知识。我们的动机是将LLMs和基于知识图谱(KGMs)的先前小模型结合起来,以提高推理准确性并节省成本。然而,由于准确性和成本在优化中并不容易结合为两个不同的指标,这仍然具有挑战性。由于不同模型在不同知识领域中表现出色,模型选择也是费力的。因此,我们提出了Coke,一种新颖的用于KBQA的与LLMs结合的成本高效策略,被建模为一个定制的多臂赌博问题,以在有限预算内最小化对LLMs的调用。我们首先利用集群级别的汤普森抽样为KGMs或LLMs制定准确性期望。进一步优化了一个上下文感知策略,以进一步区分根据问题语义的专家模型。整体决策受历史支出失败的成本遗憾的限制。大量实验证明了Coke的卓越性能,使Pareto边界向前移动,最多节省了20.89%的GPT-4费用,同时在基准数据集上实现了高达2.74%的更高准确性。
论文链接: https://arxiv.org/pdf/2405.17337
原标题: XFormParser: A Simple and Effective Multimodal Multilingual Semi-structured Form Parser
作者: Xianfu Cheng, Hang Zhang, Jian Yang, Xiang Li, Weixiao Zhou, Kui Wu, Fei Liu, Wei Zhang, Tao Sun, Tongliang Li, Zhoujun Li
机构: 北京航空航天大学 北京语言大学 北京信息科技大学 深圳智能强科技有限公司
摘要: 在文档AI领域,半结构化表单解析起着至关重要的作用。这项任务利用了关键信息提取(KIE)的技术,处理从纯文本到包含图像和结构布局的复杂模态数据的输入。预训练的多模态模型的出现推动了从PDF和图像等不同格式的表单文档中提取关键信息。然而,表单解析的努力仍然受到显着挑战的影响,比如在多语言解析方面的能力不足以及在文本和视觉丰富的环境中召回率降低。在这项工作中,我们介绍了一个简单但有效的多模态和多语言半结构化表单解析器(XFormParser),它基于一个全面预训练的语言模型,并创新地将语义实体识别(SER)和关系抽取(RE)融合到一个统一的框架中,通过一种新颖的分阶段热身训练方法,利用软标签显著提高了表单解析的准确性,而不会增加推理开销。此外,我们开发了一个开创性的基准数据集,名为InDFormBench,专门满足各种工业背景下多语言表单解析的需求。通过在已建立的多语言基准和InDFormBench上进行严格测试,XFormParser展示了其无与伦比的效果,在语言特定设置中的关系抽取任务中,其F1得分提高了高达1.79%,明显超过了最先进模型。与现有最先进基准相比,我们的框架在多语言和零样本环境下的各项任务表现都有显著提升。代码可在此https URL公开获取。
论文链接: https://arxiv.org/pdf/2405.17336
Github: https://github.com/zhbuaa0/layoutlmft
原标题: An NLP Crosswalk Between the Common Core State Standards and NAEP Item Specifications
作者: Gregory Camilli
机构: 罗格斯大学
摘要: 自然语言处理(NLP)正在快速发展,用于教育评估应用。在本文中,我描述了一种基于NLP的程序,可以用来支持学科专家在项目规范和内容标准之间建立联系。本文通过提出并演示基于嵌入向量的多变量相似性的使用,扩展了最近的工作。具体而言,演示了一种混合回归程序,用于确定每个内容标准与多个项目规范的匹配程度。该程序用于评估第4年级数学的共同核心州标准(CCSS)与2026年全国教育进展评估(NAEP)的相应项目规范的匹配程度。
论文链接: https://arxiv.org/pdf/2405.17284
原标题: A Library for Automatic Natural Language Generation of Spanish Texts
作者: Silvia García-Méndez, Milagros Fernández-Gavilanes, Enrique Costa-Montenegro, Jonathan Juncal-Martínez, F. Javier González-Castaño
机构: 维戈大学 GTI研究小组 Telematics工程系
摘要: 在本文中,我们介绍了一种新颖的系统,用于从最少的有意义的单词(如名词、动词和形容词)生成西班牙语句子的自然语言生成(NLG)。与其他最先进的解决方案不同,该系统以完全自动的方式执行NLG任务,利用基于知识和统计方法的方法。依靠其对词汇和语法的语言知识,该系统能够从用户提供的主要词汇集生成完整、连贯和拼写正确的句子。该系统被设计为可集成、可移植和高效的,可以通过设计轻松适应其他语言,并且可以在各种数字设备中进行集成。在开发过程中,我们还创建了一个西班牙语的补充词典aLexiS,具有广泛的覆盖范围和高精度,以及从一个可自由获取的确定性子句语法中的句法树。生成的NLG库已经进行了自动和手动(注释)评估。该系统在增强交流、自动生成行政报告或新闻等不同应用领域中具有潜在的应用价值。
论文链接: https://arxiv.org/pdf/2405.17280
原标题: On the Noise Robustness of In-Context Learning for Text Generation
作者: Hongfu Gao, Feipeng Zhang, Wenyu Jiang, Jun Shu, Feng Zheng, Hongxin Wei
摘要: 大语言模型(LLMs)通过上下文学习(ICL)在下游任务上展现出了令人印象深刻的性能,这在很大程度上依赖于从大量注释示例中选择的演示质量。最近的研究声称,在文本分类中,上下文学习对于嘈杂的演示具有鲁棒性。在这项工作中,我们展示了在文本生成任务中,嘈杂的注释显著损害了上下文学习的性能。为了解决这个问题,我们提出了一种简单而有效的方法,称为局部困惑度排序(LPR),它用更有可能是干净的最近邻替换了“嘈杂”的候选项。我们的方法是通过分析噪声标签引起的困惑度偏差,并将困惑度分解为固有困惑度和匹配困惑度来激发的。我们在LPR背后的关键思想是通过在语义空间中对邻居进行排序来解耦匹配困惑度。我们的方法可以防止所选演示包含不匹配的输入-标签对,同时保留原始选择方法的有效性。大量实验证明了LPR的有效性,在带有嘈杂注释的常见基准测试中,EM分数提高了高达18.75。
论文链接: https://arxiv.org/pdf/2405.17264
原标题: Assessing LLMs Suitability for Knowledge Graph Completion
作者: Vasile Ionut Remus Iga, Gheorghe Cosmin Silaghi
机构: 巴贝什-博伊亚大学 商业信息研究中心
摘要: 最近的研究表明,大语言模型(LLMs)具备解决与知识图谱相关的任务的能力,例如知识图谱补全,甚至在零样本或少样本范式下也能做到。然而,它们被知道会产生幻觉式的答案,或以非确定性的方式输出结果,从而导致错误的推理响应,即使它们满足用户的需求。为了突出知识图谱相关任务中的机遇和挑战,我们在静态知识图谱的知识图谱补全任务上,使用TELeR分类法构建的提示,在零样本和一样本的情境下,对两个不同的LLM进行了实验,分别是Mixtral-8x7B-Instruct-v0.1和gpt-3.5-turbo-0125,在一个面向任务的对话系统使用案例中。当使用严格和灵活的度量方式进行评估时,我们的结果表明,如果提示包含足够的信息和相关的示例,LLMs可以适用于这样的任务。
论文链接: https://arxiv.org/pdf/2405.17249
Github: https://github.com/ionutiga/llms-for-kgc
原标题: RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness
作者: Tianyu Yu, Haoye Zhang, Yuan Yao, Yunkai Dang, Da Chen, Xiaoman Lu, Ganqu Cui, Taiwen He, Zhiyuan Liu, Tat-Seng Chua, Maosong Sun
机构: 清华大学 新加坡国立大学
摘要: 从反馈中学习可以通过与人类偏好对齐来减少多模态大语言模型(MLLMs)的幻觉。传统方法依赖于费时费力的手动标注,而最近采用模型作为自动标注器的方法在无需人工干预的情况下取得了有希望的结果。然而,这些方法严重依赖于昂贵的专有模型,如GPT-4V,导致可扩展性问题。此外,这种范式本质上是将专有模型提炼出来,以快速弥合性能差距的临时解决方案。随着这种差距的不断缩小,社区很快将面临使用具有可比能力的标注模型来对齐MLLMs的重要挑战。在这项工作中,我们引入了RLAIF-V,这是一个全新的框架,以完全开源的范式对齐MLLMs,以提高超级GPT-4V的可信度。RLAIF-V最大程度地利用了两个方面的开源反馈,包括高质量的反馈数据和在线反馈学习算法。在自动和人工评估的七个基准测试上进行的大量实验表明,RLAIF-V显著提高了模型的可信度,而不会牺牲其他任务的性能。使用34B模型作为标注器,RLAIF-V 7B模型将物体幻觉减少了82.9%,整体幻觉减少了42.1%,优于标注器模型。值得注意的是,RLAIF-V还揭示了开源MLLMs的自我对齐潜力,其中12B模型可以从自身的反馈中学习,实现不到29.5%的整体幻觉率,大大超过GPT-4V(45.9%)。这些结果为提高领先的MLLMs的效能提供了有希望的途径。
论文链接: https://arxiv.org/pdf/2405.17220
Github: https://github.com/rlhf-v/rlaif-v
原标题: Efficient multi-prompt evaluation of LLMs
作者: Felipe Maia Polo, Ronald Xu, Lucas Weber, Mírian Silva, Onkar Bhardwaj, Leshem Choshen, Allysson Flavio Melo de Oliveira, Yuekai Sun, Mikhail Yurochkin
机构: 密歇根大学 MIT 庞培法布拉大学 贝洛奥里藏特联邦大学 IBM研究所 MIT-IBM沃森人工智能实验室
摘要: 最受欢迎的用于比较大语言模型的基准测试主要依赖于一组有限的提示模板,这可能无法充分捕捉大语言模型的能力,并且可能影响排行榜上结果的可重现性。许多最近的研究在实证上验证了提示敏感性,并主张改变大语言模型评估的方法。在本文中,我们考虑了估计跨多个提示变体的性能分布的问题,而不是找到一个单一的提示进行评估。我们引入了PromptEval,这是一种估计跨大量提示的性能的方法,通过跨提示和示例借用强度来在实际评估预算下产生准确的估计。所得到的分布可以用于获得性能分位数,以构建各种稳健的性能指标(例如,前 95% 分位数或中位数)。我们证明了PromptEval一致地估计了性能分布,并在三个知名的大语言模型基准测试上从经验上证明了它的有效性:MMLU、BIG-bench Hard 和 LMentry。例如,PromptEval 可以在相当于两个单提示评估的预算下准确估计 MMLU 上 100 个提示模板的性能分位数。我们的代码和数据可以在此 https URL 找到。
论文链接: https://arxiv.org/pdf/2405.17202
Github: https://github.com/felipemaiapolo/prompt-eval
原标题: Stop! In the Name of Flaws: Disentangling Personal Names and Sociodemographic Attributes in NLP
作者: Vagrant Gautam, Arjun Subramonian, Anne Lauscher, Os Keyes
机构: 萨尔兰大学 德国 加州大学洛杉矶分校 美国 汉堡大学 德国 华盛顿大学 美国
摘要: 个人姓名在同一时间既区分个体又以某种方式对其进行分类,这在特定社会中非常重要。虽然自然语言处理领域因此而将个人姓名与各种任务中的社会人口统计特征联系起来,但研究人员在不同程度上已经开始关注与此相关的已建立的方法论问题。为了指导未来的工作,我们提供了有关姓名和命名的跨学科背景。然后,我们调查了将姓名与社会人口统计属性相关联的固有问题,涵盖了有效性问题(例如,系统误差,构建效度)以及伦理关切(例如,伤害,差异影响,文化不敏感性)。最后,我们提出了指导性问题,并提出了规范建议,以避免在处理自然语言处理中的姓名和社会人口统计特征时出现有效性和伦理方面的问题。
论文链接: https://arxiv.org/pdf/2405.17159
原标题: TEII: Think, Explain, Interact and Iterate with Large Language Models to Solve Cross-lingual Emotion Detection
作者: Long Cheng, Qihao Shao, Christine Zhao, Sheng Bi, Gina-Anne Levow
机构: 华盛顿大学
摘要: 跨语言情感检测使我们能够以规模化的方式分析全球趋势、舆论和社会现象。我们参与了跨语言情感检测(EXALT)共享任务,在情感检测子任务的评估集上取得了0.6046的F1分数。我们的系统的性能超过了基准线超过0.16个F1分数绝对值,并在竞争系统中排名第二。我们进行了使用微调、零样本学习和少样本学习的实验,针对基于大语言模型(LLM)的模型以及基于嵌入的BiLSTM和KNN的非LLM技术。此外,我们引入了两种新方法:多迭代主体工作流和多二元分类器主体工作流。我们发现基于LLM的方法在多语言情感检测上表现良好。此外,结合所有我们实验的模型的集成产生的F1分数比任何单一方法都要高。
论文链接: https://arxiv.org/pdf/2405.17129
原标题: Mixtures of Unsupervised Lexicon Classification
作者: Peratham Wiriyathammabhum
摘要: 这篇论文提出了一种混合版本的矩方法无监督词汇分类,通过引入狄利克雷过程进行分类。
论文链接: https://arxiv.org/pdf/2405.17116
原标题: Empowering Character-level Text Infilling by Eliminating Sub-Tokens
作者: Houxing Ren, Mingjie Zhan, Zhongyuan Wu, Hongsheng Li
机构: 上海交通大学 清华大学 香港中文大学 北京大学
摘要: 在填充任务中,子标记代表将完整标记分割为两部分的实例,通常出现在前缀、中间和后缀的边界处。传统方法侧重于在标记级别训练模型,在推断阶段导致字符级填充任务性能不佳。另外,一些方法考虑了字符级填充,但它们依赖于在推断中预测子标记,然而这种策略由于模型对子标记的困惑度较大而降低了在字符级填充任务中的能力。在本文中,我们介绍了 FIM-SE,它代表着带有起始和结束字符约束的中间填充。所提出的方法通过利用行级格式来解决字符级填充任务,避免在推断中预测任何子标记。此外,我们还引入了两个特殊标记来表示不完整行的其余部分,从而增强了生成的指导。大量实验证明了我们提出的方法超越了先前的方法,提供了显著优势。代码可在此 https URL 获取。
论文链接: https://arxiv.org/pdf/2405.17103
Github: https://github.com/SenseLLM/FIM-SE
原标题: Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization
作者: Dixuan Wang, Yanda Li, Junyuan Jiang, Zepeng Ding, Guochao Jiang, Jiaqing Liang, Deqing Yang
机构: 复旦大学 数据科学学院 管理学院
摘要: 大语言模型(LLMs)在语言理解和生成方面表现出了显著的能力。然而,也有人发现LLMs倾向于对特定查询产生不准确的响应。这一缺陷可以追溯到LLMs必须经历的标记化步骤,这是所有LLMs固有的不可避免的限制。事实上,不正确的标记化是阻碍LLMs准确理解输入的关键点,从而导致不尽人意的输出。为了展示LLMs的这一缺陷,我们构建了一个对抗数据集,名为 ADT (Adversarial Dataset for Tokenizer) \textbf{ADT (Adversarial Dataset for Tokenizer)} ADT (Adversarial Dataset for Tokenizer),它利用了各种开源LLMs的词汇来挑战LLMs的标记化。ADT包括两个子集:手动构建的ADT-Human和自动生成的ADT-Auto。我们的实证结果表明,我们的ADT对挑战领先的LLMs的标记化非常有效,包括GPT-4o、Llama-3、Qwen2.5-max等,从而降低了这些LLMs的能力。此外,我们的自动数据生成方法已被证明是高效和稳健的,可以应用于任何开源LLMs。据我们所知,我们的研究是第一个调查LLMs在挑战它们的标记分割方面的脆弱性的研究,这将为改进LLMs的能力通过优化它们的标记化过程和算法的后续研究提供启示。
论文链接: https://arxiv.org/pdf/2405.17067
原标题: Unifying Demonstration Selection and Compression for In-Context Learning
作者: Jun Gao
机构: 苏州大学 School of Computer Science and Technology
摘要: 在上下文学习(ICL)中,大语言模型(LLMs)在各种场景中展现出了惊人的新能力。不幸的是,引入演示很容易使提示长度激增,给硬件带来了重大负担。此外,随机演示通常在ICL中取得了有限的改进,需要在可访问的候选演示中进行演示选择。先前的研究引入了额外的模块来执行演示压缩或独立选择。在本文中,我们提出了一个ICL框架UniICL,它统一了演示选择和压缩,并通过单个冻结的LLM进行最终响应生成。具体而言,UniICL首先将实际演示和推理文本输入分别投影到短虚拟标记中。然后,通过在候选演示和推理输入之间的潜在空间内测量语义相似性,应用虚拟标记来选择合适的演示。最后,推理文本输入连同选定的虚拟演示被馈送到同一个冻结的LLM中进行响应生成。值得注意的是,UniICL是一个参数高效的框架,只包含来自投影层的1700万可训练参数。我们对生成和理解任务的内外领域数据集进行了实验和分析,涵盖了ICL场景中丰富和有限的演示候选。结果表明,UniICL有效地统一了12倍的压缩、演示选择和响应生成,在IMDb中将基线从4-shot扩展到64-shot ICL,且只需24GB的CUDA分配。
论文链接: https://arxiv.org/pdf/2405.17062
原标题: ReflectionCoder: Learning from Reflection Sequence for Enhanced One-off Code Generation
作者: Houxing Ren, Mingjie Zhan, Zhongyuan Wu, Aojun Zhou, Junting Pan, Hongsheng Li
机构: 上海交通大学 港中文大学 香港中文大学 中国香港中文大学 中国香港中文大学物理系
摘要: 代码生成在各种任务中起着至关重要的作用,例如代码自动补全和数学推理。先前的工作已经提出了许多方法来增强代码生成性能,包括整合来自编译器的反馈。受此启发,我们提出了ReflectionCoder,这是一种新颖的方法,通过整合编译器反馈构建反射序列,有效地提高一次性代码生成性能。此外,我们提出了反射自蒸馏和动态屏蔽蒸馏,以有效利用这些反射序列。在三个基准测试上进行了大量实验,即HumanEval(+)、MBPP(+)和MultiPl-E,结果表明,使用我们方法微调的模型达到了最先进的性能。值得注意的是,ReflectionCoder-DeepSeek-Coder-33B 在HumanEval(+)上的 pass@1 达到了82.9(76.8),在MBPP(+)上达到了84.1(72.0),与GPT-3.5-Turbo和Claude-3-opus不相上下,并超过了早期的GPT-4。除了代码领域,我们相信这种方法可以使其他专注于最终结果并需要长时间推理路径的领域受益。代码和数据可在此 https URL 获取。
论文链接: https://arxiv.org/pdf/2405.17057
Github: https://github.com/SenseLLM/ReflectionCoder
原标题: SelfCP: Compressing Long Prompt to 1/12 Using the Frozen Large Language Model Itself
作者: Jun Gao
机构: 苏州大学
摘要: 长的提示会导致使用大型语言模型(LLMs)时的巨大硬件成本。不幸的是,许多任务,如摘要,不可避免地引入长的任务输入,并且在上下文学习的广泛应用中,提示长度很容易爆炸。受到LLMs的语言理解能力的启发,本文提出了SelfCP,它使用LLM本身将长提示压缩成紧凑的虚拟标记。SelfCP首先将通用的冻结LLM作为编码器来压缩提示,然后作为解码器生成响应。具体而言,给定一个长的提示,我们在冗长的段落中放置特殊的标记进行压缩,并向LLM发出信号生成k个虚拟标记。然后,虚拟标记与未压缩的提示连接在一起,并被输入到同一个LLM中生成响应。总的来说,SelfCP便于无条件和有条件地压缩提示,适用于标准任务和具有特定目标的任务。由于编码器和解码器都是冻结的,SelfCP只包含17M个可训练参数,并且可以方便地适应各种主干。我们使用两个LLM主干实现了SelfCP,并在内部和外部领域任务中对其进行评估。结果表明,压缩的虚拟标记可以有效地替代原始提示的12倍。
论文链接: https://arxiv.org/pdf/2405.17052
原标题: BWArea Model: Learning World Model, Inverse Dynamics, and Policy for Controllable Language Generation
作者: Chengxing Jia, Pengyuan Wang, Ziniu Li, Yi-Chen Li, Zhilong Zhang, Nan Tang, Yang Yu
机构: 南京大学 中国香港中文大学深圳研究院 Polixir.ai
摘要: 大语言模型(LLMs)在自然语言处理领域引发了范式转变,然而它们的有限可控性对于下游应用来说是一个重大挑战。我们的目标是从人脑的神经机制中汲取灵感,特别是布洛卡区和沃尼克区,它们分别对语言生成和理解至关重要。特别是,布洛卡区接收来自沃尼克区的认知决策信号,将语言生成视为一个复杂的决策过程,这与现有LLMs的完全自回归语言生成不同。同样,我们提出的系统,BWArea模型,将语言生成概念化为一个决策任务。该模型有三个组成部分:语言世界模型、逆动力学模型和认知策略。与沃尼克区类似,逆动力学模型旨在推断每个标记背后的潜在认知意图或潜在动作。BWArea模型可以像现有的LLMs一样进行预训练和微调。通过30B个干净的预训练标记,我们训练了一个BWArea模型,其在与相同规模(1B参数)的LLMs相比具有竞争力的性能。与完全自回归的LLMs不同,如果出现意外的脏数据,其预训练性能不会退化。这显示了BWArea模型分解结构在减少繁琐的数据选择和标记工作方面的优势。最后,我们揭示了BWArea模型通过用下游奖励指标微调认知策略来提供增强的可控性,从而促进更简单的对齐。在TextWorld和BigBench Hard两个套件的10个任务中,我们的方法在9个任务上表现优于自回归LLMs。
论文链接: https://arxiv.org/pdf/2405.17039
原标题: The Multi-Range Theory of Translation Quality Measurement: MQM scoring models and Statistical Quality Control
作者: Arle Lommel, Serge Gladkoff, Alan Melby, Sue Ellen Wright, Ingemar Strandvik, Katerina Gasova, Angelika Vaasa, Andy Benzo, Romina Marazzato Sparano, Monica Faresi, Johani Innis, Lifeng Han, Goran Nenadic
机构: 马萨诸塞州大学 CSA研究机构 罗格斯全球有限责任公司 宾夕法尼亚州大学 布里格姆扬大学 肯特州立大学 欧洲委员会翻译总司 Argos Multilingual公司 欧洲议会翻译总司
摘要: 2024年标志着多维质量度量(MQM)框架用于分析翻译质量评估的十周年。MQM错误分类法已被翻译和本地化行业的从业者广泛使用,并成为许多衍生项目的基础。机器翻译年会(WMT)上的人工和自动翻译质量评估共享任务使用了MQM错误分类法。
该度量标准基于两个支柱:错误分类法和评分模型。评分模型从注释数据中计算质量分数,详细说明如何将错误类型和严重程度计数转换为数字分数,以确定内容是否符合规范。之前,只有原始评分模型被发布。今年四月,MQM委员会发布了线性校准评分模型,正式在此处介绍,以及之前未发布的非线性评分模型。
本文详细介绍了最新的MQM发展,并提出了一种跨三个样本大小范围的翻译质量测量的通用方法。它还解释了为什么应该在非常小的样本大小(从一个句子开始)使用统计质量控制。
论文链接: https://arxiv.org/pdf/2405.16969
原标题: Exploring the LLM Journey from Cognition to Expression with Linear Representations
作者: Yuzi Yan, Jialian Li, Yipin Zhang, Dong Yan
机构: 清华大学 百川科技
摘要: 本论文对大语言模型(LLMs)中认知和表达能力的演变和相互作用进行了深入研究,特别关注了百川-7B和百川-33B,这是一系列先进的双语(中文和英文)LLM。我们通过线性表示在三个关键阶段(预训练、监督微调(SFT)和从人类反馈中进行强化学习(RLHF))中定义和探索了模型的认知和表达能力。认知能力被定义为网络内神经元输出向量传达的信息的数量和质量,类似于人类认知中的神经信号处理。表达能力被定义为模型产生单词级输出的能力。我们的研究揭示了一个顺序发展模式,其中认知能力在预训练阶段基本建立,而表达能力主要在SFT和RLHF期间发展。统计分析证实了这两种能力之间的显著相关性,表明认知能力可能限制了表达潜力。本文还探讨了这些不同发展轨迹的理论基础及其与LLMs的架构设计的关联。此外,我们评估了各种与优化无关的策略,如少样本学习和重复采样,以弥合认知和表达能力之间的差距。这项研究揭示了隐藏空间与输出空间之间的潜在联系,为解释它们的训练过程的可解释性和可控性提供了宝贵的见解。
论文链接: https://arxiv.org/pdf/2405.16964
原标题: Empowering Large Language Models to Set up a Knowledge Retrieval Indexer via Self-Learning
作者: Xun Liang, Simin Niu, Zhiyu li, Sensen Zhang, Shichao Song, Hanyu Wang, Jiawei Yang, Feiyu Xiong, Bo Tang, Chenyang Xi
机构: 中国人民大学 上海高级算法研究所
摘要: 检索增强生成(RAG)提供了一种将实时知识注入大型语言模型(LLM)的经济高效的方法。然而,构建和验证高质量的知识库需要相当大的努力。我们提出了一个名为伪图检索增强生成(PG-RAG)的预检索框架,它将LLM视为学生,为他们提供丰富的原始阅读材料,并鼓励他们进行自主阅读,以用自己的话记录事实信息。由此产生的简明、井然有序的心理索引通过共同的主题或互补的事实相互连接,形成一个伪图数据库。在检索阶段,PG-RAG模拟人类翻阅笔记、识别事实路径并随后探索相关上下文的行为。遵循多数人选择的原则,它整合高度协同的事实路径,为LLM提供结构化和精炼的子图辅助。我们在三个专门的问答数据集上验证了PG-RAG。在单文档任务中,PG-RAG在所有关键评估指标上显著优于当前最佳基准线KGP-LLaMA,平均整体性能提升了11.6%。具体而言,其BLEU分数提高了约14.3%,QE-F1指标提高了23.7%。在多文档场景中,PG-RAG的平均指标至少比最佳基准线高2.35%。值得注意的是,BLEU分数和QE-F1指标分别稳定提高了约7.55%和12.75%。我们的代码:this https URL。
论文链接: https://arxiv.org/pdf/2405.16933
Github: https://github.com/IAAR-Shanghai/PGRAG
原标题: Can Large Language Models Faithfully Express Their Intrinsic Uncertainty in Words?
作者: Gal Yona, Roee Aharoni, Mor Geva
机构: 谷歌研究 Tel Aviv大学
摘要: 我们假设大语言模型(LLMs)应该能够用自然语言表达其固有的不确定性。例如,如果大语言模型对同一个问题输出两个相互矛盾的答案同样可能,那么它生成的回应应该通过措辞表明这种不确定性(例如,“我不确定,但我认为…”)。我们通过模型在所做断言的固有信心与传达这些断言的果断性之间的差距,形式化了忠实的回应不确定性。这种基于示例的度量可靠地指示模型是否反映了其不确定性,因为它惩罚过度和不足的措辞。我们评估了多种对齐的大语言模型在几个知识密集型问答任务中忠实传达不确定性的能力。我们的结果强有力地表明,现代大语言模型在忠实传达其不确定性方面表现不佳,更好的对齐是提高其可信度的必要条件。
论文链接: https://arxiv.org/pdf/2405.16908
原标题: Match, Compare, or Select? An Investigation of Large Language Models for Entity Matching
作者: Tianshu Wang, Hongyu Lin, Xiaoyang Chen, Xianpei Han, Hao Wang, Zhenyu Zeng, Le Sun
机构: 中国科学院 软件研究所 杭州高等研究院 阿里巴巴云集团
摘要: 实体匹配(EM)是实体解析中的关键步骤。最近,基于大语言模型(LLMs)的实体匹配显示出了巨大的潜力。然而,当前基于LLM的实体匹配方法通常遵循忽略不同记录之间全局一致性的二元匹配范式。在本文中,我们调查了基于LLM的实体匹配的各种方法,这些方法从不同的角度融合了记录之间的交互。具体而言,我们全面比较了三种代表性策略:匹配、比较和选择,并分析了它们在不同场景中的各自优势和挑战。根据我们的研究结果,我们进一步设计了一个组合实体匹配(ComEM)框架,该框架利用了多种策略和LLMs的组合。通过这种方式,ComEM可以从不同方面的优势中受益,并在效果和效率上实现改进。实验结果表明,ComEM不仅在各种数据集上取得了显著的性能提升,而且在实际应用中减少了基于LLM的实体匹配的成本。
论文链接: https://arxiv.org/pdf/2405.16884
Github: https://github.com/tshu-w/llm4em
原标题: Can We Trust LLMs? Mitigate Overconfidence Bias in LLMs through Knowledge Transfer
作者: Haoyan Yang, Yixuan Wang, Xingyin Xu, Hanyuan Zhang, Yirong Bian
机构: 纽约大学 Center for Data Science
摘要: 该研究探讨了减轻大语言模型中的过度自信偏差以提高其可靠性。我们引入了一种知识传递(KT)方法,利用思维链,其中“大”语言模型通过详细的顺序推理路径向“小”语言模型传授知识。该方法利用更大模型的高级推理来微调较小模型,使其能够以校准的自信度产生更准确的预测。通过对多项选择题和情感分析的实验评估,证明了KT方法相对于普通方法和问答对(QA)微调方法的优越性。在三个关键指标中,KT方法的改进最为显著,分别比普通方法和QA方法平均提高了55.3%和43.1%。这些发现强调了KT方法在提高模型的可信度和准确性方面的潜力,能够在各种情境下提供精确的输出和匹配的自信水平。
论文链接: https://arxiv.org/pdf/2405.16856
原标题: Perturbation-Restrained Sequential Model Editing
作者: Jun-Yu Ma, Hong Wang, Hao-Xiang Xu, Zhen-Hua Ling, Jia-Chen Gu
机构: 中国科学技术大学 加利福尼亚大学洛杉矶分校
摘要: 模型编辑是一个新兴领域,专注于更新大语言模型(LLMs)中嵌入的知识,而无需进行大量的重新训练。然而,当前的模型编辑方法在编辑次数增加时显著损害了LLMs的通用能力,这种权衡对LLMs的持续学习构成了重大挑战。在本文中,我们首先从理论上分析了顺序模型编辑中影响通用能力的因素,这在于编辑矩阵的条件数。矩阵的条件数代表其数值敏感性,因此可以用来指示编辑后存储在LLMs中的原始知识关联在编辑后受到的扰动程度。随后的统计发现表明,随着编辑次数的增加,这一因素的值变大,从而加剧了通用能力的恶化。因此,我们提出了一个名为PRUNE(Perturbation Restraint on Upper bouNd for Editing)的框架,该框架在顺序编辑中应用条件数约束。这些约束可以降低对编辑模型的扰动的上限,从而保留通用能力。系统地,我们对三个代表性的下游任务在三个流行的编辑方法上进行了实验。评估结果表明,PRUNE在顺序模型编辑中可以保留相当的通用能力,同时有效地保持编辑性能。代码和数据可在此 https URL 获取。
论文链接: https://arxiv.org/pdf/2405.16821
Github: https://github.com/mjy1111/PRUNE
原标题: Performance evaluation of Reddit Comments using Machine Learning and Natural Language Processing methods in Sentiment Analysis
作者: Xiaoxia Zhang, Xiuyuan Qi, Zixin Teng
机构: 上海科技大学
摘要: 情感分析在学术界和工业界都变得越来越重要,在机器学习应用中发挥着关键作用,特别是在像 Reddit 这样的社交媒体平台上。然而,情感分析模型的有效性受到情感数据集的不足和细粒度的阻碍。为了弥补这一差距,我们的研究利用 GoEmotions 数据集,其中包含各种各样的情感,来评估情感分析方法在一个包含 58,000 条评论的大语料库中的表现。与谷歌团队之前的研究不同,他们仅限于分析两个模型,我们的研究通过评估各种模型扩大了范围。我们研究了传统分类器(如朴素贝叶斯和支持向量机(SVM))以及基于最先进的 Transformer 模型,包括 BERT、RoBERTa 和 GPT。此外,我们的评估标准不仅仅局限于准确性,还包括基于情感分类中不同粒度级别的层次分类的细致评估。此外,考虑到计算效率等因素,我们还纳入了综合评估框架。我们的研究结果显示,RoBERTa 模型在精细情感分类任务中始终优于基准模型,在准确性方面表现出色。这凸显了 RoBERTa 模型在推进情感分析能力方面的巨大潜力和重要性。
论文链接: https://arxiv.org/pdf/2405.16810
原标题: Entity Alignment with Noisy Annotations from Large Language Models
作者: Shengyuan Chen, Qinggang Zhang, Junnan Dong, Wen Hua, Qing Li, Xiao Huang
机构: 香港理工大学
摘要: 实体对齐(EA)旨在通过识别等价实体对来合并两个知识图谱(KGs)。虽然现有方法严重依赖人工生成的标签,但在现实场景中,引入跨领域专家进行注释是极其昂贵的。大语言模型(LLMs)的出现为利用注释自动化实体对齐提供了新途径,受其处理语义信息的全面能力的启发。然而,直接将LLMs应用于EA并非易事,因为现实世界中KGs的注释空间很大。LLMs也可能生成噪声标签,可能会误导对齐。因此,我们提出了一个统一框架LLM4EA,以有效利用LLMs进行EA。具体而言,我们设计了一种新颖的主动学习策略,通过优先考虑整个跨KG和内KG结构中最有价值的实体,显著减少注释空间。此外,我们引入了一个无监督标签优化器,通过深入的概率推理持续增强标签准确性。我们根据基础EA模型的反馈迭代优化策略。大量实验证明了LLM4EA在四个基准数据集上在有效性、鲁棒性和效率方面的优势。
论文链接: https://arxiv.org/pdf/2405.16806
原标题: AutoCV: Empowering Reasoning with Automated Process Labeling via Confidence Variation
作者: Jianqiao Lu, Zhiyang Dou, Hongru Wang, Zeyu Cao, Jianbo Dai, Yingjia Wan, Yinya Huang, Zhijiang Guo
机构: 香港大学 中国香港中文大学 剑桥大学 爱丁堡大学 香港城市大学
摘要: 在这项工作中,我们提出了一种名为\textbf{自动}过程标注通过\textbf{置信度}变化(\textbf{\textsc{AutoCV}})的新方法,通过自动注释推理步骤来增强大型语言模型(LLMs)的推理能力。我们的方法首先在最终答案的正确性上训练一个验证模型,使其能够生成自动的过程注释。该验证模型为每个推理步骤分配一个置信度分数,表示从该点开始到达正确的最终答案的概率。我们检测验证的置信度分数在推理步骤之间的相对变化,以自动注释推理过程。这减轻了大量手动注释或与模型引导注释方法相关的高计算成本的需求。我们通过实验证实,验证模型在最终答案正确性上训练的置信度变化可以有效地识别推理步骤中的错误。随后,我们证明了\textsc{AutoCV}生成的过程注释可以提高验证模型在LLMs生成的多个输出中选择正确答案的准确性。值得注意的是,我们在数学和常识推理的五个数据集上取得了显著的改进。\textsc{AutoCV}的源代码可在\url{this https URL}上获得。
论文链接: https://arxiv.org/pdf/2405.16802
Github: https://github.com/rookie-joe/AUTOCV
原标题: Matryoshka Multimodal Models
作者: Mu Cai, Jianwei Yang, Jianfeng Gao, Yong Jae Lee
机构: 威斯康星大学麦迪逊分校 微软研究院雷德蒙德
摘要: 大型多模态模型(LMMs)如LLaVA在视觉-语言推理方面表现出色。这些模型首先将图像嵌入固定数量的视觉 Token 中,然后将它们馈送到大型语言模型(LLM)中。然而,这种设计在密集视觉场景(如高分辨率图像和视频)中会导致过多的 Token,从而导致效率低下。虽然存在 Token 剪枝/合并方法,但它们为每个图像生成单一长度的输出,并且在信息密度与效率之间的权衡上缺乏灵活性。受到套娃玩偶概念的启发,我们提出了M3:套娃多模态模型,它学习将视觉内容表示为捕捉多个粗到细粒度层次上信息的嵌套视觉 Token 集。我们的方法为LMMs提供了几个独特的优势:(1)可以在推断期间明确控制每个测试实例的视觉粒度,例如,根据内容的复杂性或简单性调整用于表示图像的 Token 数量;(2)M3为分析现有数据集所需的粒度提供了一个框架,在这里我们发现,类似COCO的基准只需要大约9个视觉 Token 就可以获得与使用所有576个 Token 相似的准确性;(3)我们的方法为在样本级别探索性能和视觉 Token 长度之间的最佳权衡提供了基础,我们的调查显示,神谕上界与当前固定规模表示之间存在很大差距。
论文链接: https://arxiv.org/pdf/2405.17430
原标题: Privacy-Aware Visual Language Models
作者: Laurens Samson, Nimrod Barazani, Sennay Ghebreab, Yuki M. Asano
机构: 阿姆斯特丹大学
摘要: 本文旨在推进我们对视觉语言模型(VLMs)如何处理涉及隐私信息的理解,这是一个至关重要的问题,因为这些技术已经成为日常生活中不可或缺的一部分。为此,我们引入了一个新的基准 PrivBench,其中包含来自8个敏感类别的图像,如护照或指纹。我们在这个基准上评估了10个最先进的VLMs,并观察到对隐私的理解普遍有限,突显了模型改进的重要领域。基于此,我们引入了PrivTune,这是一个新的指令调整数据集,旨在为VLMs提供有关视觉隐私的知识。通过在这个小数据集上调整两个预训练的VLMs,TinyLLaVa和MiniGPT-v2,我们提高了它们识别敏感内容的能力,甚至超过了GPT4-V。与此同时,我们表明隐私调整对VLMs在VQA等标准基准上的性能只有最小的影响。总的来说,本文提出了使VLMs能够安全处理现实世界数据的关键挑战,并提供了一个简单的方法,迈出了构建具有隐私意识的VLMs的第一步。
论文链接: https://arxiv.org/pdf/2405.17423
原标题: KSW: Khmer Stop Word based Dictionary for Keyword Extraction
作者: Nimol Thuon, Wangrui Zhang, Sada Thuon
机构: 柬埔寨技术学院 德国科隆大学
摘要: 本文介绍了KSW,一种针对高棉语的关键词提取方法,利用了专门的停用词词典。由于高棉语的自然语言处理资源有限,有效的关键词提取一直是一个重大挑战。KSW通过开发定制的停用词词典并实施预处理方法来去除停用词,从而增强了有意义关键词的提取。我们的实验表明,与先前的方法相比,KSW在准确性和相关性方面取得了显著改进,突显了其推动高棉语文本处理和信息检索的潜力。KSW资源,包括停用词词典,可在以下GitHub存储库中找到:(此https网址)。
论文链接: https://arxiv.org/pdf/2405.17390
Github: https://github.com/back-kh/KSWv2-Khmer-Stop-Word-based-Dictionary-for-Keyword-Extraction.git https://github.com/back-kh/KSWv2-Khmer-Stop-Word-based-Dictionary-for-Keyword-Extraction
原标题: ReMoDetect: Reward Models Recognize Aligned LLM’s Generations
作者: Hyunseok Lee, Jihoon Tack, Jinwoo Shin
机构: 韩国科学技术院
摘要: 大语言模型(LLM)的显著能力和易于获取性极大地增加了社会风险(例如虚假新闻生成),因此需要开发LLM生成文本(LGT)检测方法以确保安全使用。然而,由于LLM的数量庞大,检测LGT是具有挑战性的,因此无法逐个考虑每个LLM;因此,识别这些模型共享的共同特征至关重要。在本文中,我们关注了最近强大的LLM的一个共同特征,即对齐训练,即训练LLM生成人类偏好的文本。我们的关键发现是,由于这些对齐的LLM被训练成最大化人类偏好,它们生成的文本的估计偏好甚至高于人类编写的文本;因此,可以通过使用奖励模型(即训练LLM来模拟人类偏好分布)轻松检测到这些文本。基于这一发现,我们提出了两种训练方案,以进一步提高奖励模型的检测能力,即(i)持续偏好微调,以进一步使奖励模型偏好对齐的LGT,以及(ii)对人类/LLM混合文本进行奖励建模(使用对齐的LLM对人类编写的文本进行重新表述),这样可以更好地学习LGT和人类编写文本之间的决策边界。我们通过考虑12个对齐的LLM跨6个文本领域进行了广泛的评估,结果显示我们的方法达到了最先进的水平。代码可在此https URL上获得。
论文链接: https://arxiv.org/pdf/2405.17382
Github: https://github.com/hyunseoklee-ai/reward_llm_detect
原标题: Exploring and steering the moral compass of Large Language Models
作者: Alejandro Tlaie
摘要: 大语言模型(LLMs)已成为推动各个领域自动化和决策制定的核心,引发了重大的伦理问题。本研究提出对最先进的大语言模型进行全面比较分析,以评估它们的道德特征。我们对几个最先进的模型进行了一系列伦理困境的测试,发现所有专有模型大多是功利主义的,而所有开放权重的模型大多与基于价值观的伦理观点一致。此外,当使用道德基础问卷时,我们发现所有我们测试的模型 - 除了Llama 2 - 都显示出强烈的自由主义偏见。最后,为了对研究中的一个模型进行因果干预,我们提出了一种新的相似性特定激活引导技术。使用这种方法,我们能够可靠地引导模型的道德指南针指向不同的伦理学派别。所有这些结果表明,已经部署的LLMs存在伦理维度,这一方面通常被忽视。
论文链接: https://arxiv.org/pdf/2405.17345
原标题: Collage is the New Writing: Exploring the Fragmentation of Text and User Interfaces in AI Tools
作者: Daniel Buschek
机构: 巴伊罗伊特大学 德国 Uni-Bayreuth University
摘要: 这篇文章提出并探讨了关于使用拼贴概念设计人工智能写作工具的概念,这个概念源自前卫文学,包括以下四个方面:1)在写作界面中对文本进行碎片化处理,2)并置声音(内容与命令),3)整合来自多个来源的材料(例如文本建议),以及4)从手动写作转变为编辑和构图决策,比如选择和排列片段。该文章随后运用拼贴作为分析镜头来分析最近人工智能写作工具的用户界面设计,并作为一个建设性的视角来激发新的设计方向。最后,一个批判性的观点将作家们在历史上通过文学拼贴表达的关注与人工智能写作工具联系起来。从宏观的角度来看,这篇文章探讨了文学概念如何帮助推进围绕人工智能写作工具的设计理论。它鼓励未来写作工具的创作者不仅要利用新的技术可能性,还要借鉴过去的写作创新。
论文链接: https://arxiv.org/pdf/2405.17217
原标题: Exploiting the Layered Intrinsic Dimensionality of Deep Models for Practical Adversarial Training
作者: Enes Altinisik, Safa Messaoud, Husrev Taha Sencar, Hassan Sajjad, Sanjay Chawla
机构: 卡塔尔计算研究所 哈尔滨卡达尔大学
摘要: 尽管对抗训练(AT)是一个经过深入研究的课题,但由于两个主要原因,它很少甚至从未在实际的人工智能系统中部署:(i)获得的鲁棒性通常伴随着泛化能力的下降;(ii)生成对抗样本(AEs)在计算上是极其昂贵的。为了解决这些限制,我们提出了SMAAT,这是一种新的AT算法,它利用流形猜想,即离流形的AEs导致更好的鲁棒性,而在流形上的AEs导致更好的泛化。具体而言,SMAAT旨在通过扰动具有最低内在维度的中间深度网络层来生成更高比例的离流形AEs。与传统的AT相比,这在系统上导致更好的可扩展性,因为它减少了生成AEs所需的PGD链长度。此外,我们的研究提供了据我们所知,关于视觉和语言模型之间泛化和鲁棒性趋势差异的首次解释,即在视觉模型中,AT导致泛化能力下降,而在基于编码器的语言模型中,泛化能力要么改善,要么保持不变。我们表明,视觉Transformer和基于解码器的模型在网络的较早层具有较低的内在维度(更多离流形AEs),而基于编码器的模型在较后层具有较低的内在维度。我们展示了SMAAT的有效性;在多个任务中,包括增强(i)情感分类器,(ii)解码器模型中的安全过滤器,以及(iii)RAG设置中的检索器。与标准AT相比,SMAAT仅需要25-33%的GPU时间,同时显著提高了所有应用程序的鲁棒性,并保持了可比较的泛化能力。
论文链接: https://arxiv.org/pdf/2405.17130
原标题: LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding
作者: Haoyu Zhao, Wenhang Ge, Ying-cong Chen
机构: 香港科技大学(广州)
摘要: 视觉定位是将用户提供的文本查询与图像内特定区域相连的基本工具。尽管视觉定位模型取得了进展,但它们理解复杂查询的能力仍然有限。为了克服这一限制,我们引入了LLM-Optic,这是一种创新方法,利用大语言模型(LLMs)作为光学镜头,增强现有的视觉定位模型对理解涉及复杂文本查询的能力,这些查询涉及复杂的文本结构、多个对象或对象空间关系,这是当前模型难以处理的情况。LLM-Optic首先将LLM作为文本定位器,解释复杂文本查询并准确识别用户想要定位的对象。然后,使用预训练的视觉定位模型根据文本定位器优化的查询生成候选边界框。之后,LLM-Optic使用数字标记注释候选边界框,建立文本和特定图像区域之间的连接,从而将两种不同的模态联系起来。最后,它将大型多模型(LMM)作为视觉定位器,选择最符合原始文本查询的标记候选对象。通过LLM-Optic,我们实现了通用视觉定位,可以检测由任意人类语言输入指定的任意对象。重要的是,我们的方法实现了这一增强,而无需额外的训练或微调。在各种具有挑战性的基准测试中进行的大量实验表明,LLM-Optic实现了最先进的零样本视觉定位能力。
论文链接: https://arxiv.org/pdf/2405.17104
原标题: Phase Transitions in the Output Distribution of Large Language Models
作者: Julian Arnold, Flemming Holtorf, Frank Schäfer, Niels Lörch
机构: 巴塞尔大学 麻省理工学院
摘要: 在一个物理系统中,改变诸如温度之类的参数可以引发相变:即从一种物质状态突然转变为另一种状态。类似的现象最近在大型语言模型中也被观察到。通常,识别相变的任务需要人类分析和对系统的一些先前理解,以缩小需要监测和分析的低维属性范围。物理学界最近提出了一些用于从数据中自动检测相变的统计方法。这些方法在很大程度上与系统无关,并且正如本文所示,可以适应于研究大型语言模型的行为。具体而言,我们通过统计距离量化生成输出中的分布变化,这可以通过访问下一个标记的概率分布来高效估计。这种多功能的方法能够发现行为的新阶段和未经探索的转变,这一能力在语言模型的快速发展和其新兴能力的背景下尤为令人兴奋。
论文链接: https://arxiv.org/pdf/2405.17088
Github: https://github.com/llmtransitions/llmtransitions
原标题: Leveraging small language models for Text2SPARQL tasks to improve the resilience of AI assistance
作者: Felix Brei, Johannes Frey, Lars-Peter Meyer
机构: 应用信息学研究所的ETi能力中心 德国 莱比锡大学计算机科学研究所
摘要: 在这项工作中,我们将展示出在微调后,具有少于十亿个参数的语言模型可以用于将自然语言翻译成SPARQL查询。通过使用从学术界到真实世界的三个不同数据集,我们确定了训练数据必须满足的先决条件,以确保训练的成功。我们的目标是让语义网技术的用户能够使用AI辅助功能,并且只需使用经济实惠的通用硬件,从而使他们对外部因素更具弹性。
论文链接: https://arxiv.org/pdf/2405.17076
原标题: Generation and human-expert evaluation of interesting research ideas using knowledge graphs and large language models
作者: Xuemei Gu, Mario Krenn
机构: 马克斯·普朗克光学科学研究所 科学之光研究所
摘要: 先进的人工智能(AI)系统可以访问数百万篇研究论文,从而激发出人类无法想象的新研究思路。然而,这些由AI生成的思路有多有趣,我们如何提高它们的质量呢?在这里,我们介绍了SciMuse,这是一个使用从超过5800万篇科学论文构建的不断演化的知识图谱,通过与GPT-4的接口生成个性化研究思路的系统。我们与来自马克斯·普朗克学会的100多位研究小组负责人进行了大规模的人工评估,他们根据兴趣程度对4000多个个性化研究思路进行了排名。这次评估使我们能够了解科学兴趣与知识图谱的核心属性之间的关系。我们发现,数据高效的机器学习可以高精度地预测研究兴趣,从而使我们能够优化生成的研究思路的兴趣水平。这项工作是朝着一个人工科学灵感的方向迈出的一步,它可以促进意想不到的合作,并为科学家提供有趣的研究方向。
论文链接: https://arxiv.org/pdf/2405.17044
原标题: Vision-and-Language Navigation Generative Pretrained Transformer
作者: Wen Hanlin
机构: 华中科技大学
摘要: 在视觉与语言导航(VLN)领域,代理人被要求根据语言指令导航现实场景。使代理人在整个导航过程中遵循指令代表了VLN领域内的一个重大挑战。为了解决这一挑战,常见方法通常依赖于编码器来明确记录过去的位置和动作,增加模型复杂性和资源消耗。
我们的提议,即视觉与语言导航生成预训练Transformer(VLN-GPT),采用了Transformer解码器模型(GPT2)来建模轨迹序列依赖关系,绕过了历史编码模块的需求。这种方法通过轨迹序列允许直接访问历史信息,增强了效率。此外,我们的模型将训练过程分为离线预训练和模仿学习,以及在线微调和强化学习。这种区分允许更专注的训练目标和改善性能。
对VLN数据集的性能评估显示,VLN-GPT超越了复杂的基于编码器的最新模型。
论文链接: https://arxiv.org/pdf/2405.16994
原标题: VoCoT: Unleashing Visually Grounded Multi-Step Reasoning in Large Multi-Modal Models
作者: Zejun Li, Ruipu Luo, Jiwen Zhang, Minghui Qiu, Zhongyu Wei
机构: 复旦大学 字节跳动
摘要: 大型多模态模型(LMMs)在各种任务中展现出了令人印象深刻的能力,但它们在处理复杂任务时的有效性受到了当前单步推理范式的限制。为此,本文提出了VoCoT,这是一个专为LMM推理而设计的多步视觉对象中心链式推理框架。VoCoT具有两个关键特征:(1)以物体为中心的推理路径,围绕跨模态共享的物体级信息展开,以及(2)以视觉为基础的对象概念表示,以多模态交错和对齐的方式有效地弥合了LMM在长期生成过程中的模态差距。此外,我们构建了一个指导数据集,以便帮助LMM适应VoCoT推理。通过将VoCoT引入流行的开源LMM架构,我们引入了VolCano。仅使用7B参数和有限的输入分辨率,VolCano在各种场景中展现出了出色的性能,在需要复杂推理的任务中超越了包括GPT-4V在内的SOTA模型。我们的代码、数据和模型将在此https网址上提供。
论文链接: https://arxiv.org/pdf/2405.16919
Github: https://github.com/RupertLuo/VoCoT
原标题: Mixture of Modality Knowledge Experts for Robust Multi-modal Knowledge Graph Completion
作者: Yichi Zhang, Zhuo Chen, Lingbing Guo, Yajing Xu, Binbin Hu, Ziqi Liu, Wen Zhang, Huajun Chen
机构: Zhejiang University Ant Group Alibaba-Zhejiang University Joint Institute of Frontier Technology
摘要: 多模态知识图谱补全(MMKGC)旨在自动发现给定的多模态知识图谱(MMKGs)中的新知识三元组,通过协同建模来自大量三元组的结构信息和实体的多模态特征来实现。现有方法往往专注于设计优雅的基于实体的多模态融合策略,但忽视了在不同关系背景下隐藏在模态中的多角度特征的利用。为了解决这个问题,我们引入了一种新颖的MMKGC框架,即混合模态知识专家(MoMoK),以在复杂的关系背景下学习自适应的多模态嵌入。我们设计了关系引导的模态知识专家来获取关系感知的模态嵌入,并整合来自多个模态的预测结果以实现全面的决策。此外,我们通过最小化它们的互信息来解耦专家。在四个公共MMKG基准上的实验证明了MoMoK在复杂场景下的出色性能。
论文链接: https://arxiv.org/pdf/2405.16869
Github: https://github.com/zjukg/momok
原标题: On Mesa-Optimization in Autoregressively Trained Transformers: Emergence and Capability
作者: Chenyu Zheng, Wei Huang, Rongzhen Wang, Guoqiang Wu, Jun Zhu, Chongxuan Li
机构: 中国人民大学高灵人工智能学院 山东大学软件学院 京东-清华大学-博世人工智能联合实验室
摘要: 自回归训练的Transformer给世界带来了深刻的革命,特别是它们的上下文学习(ICL)能力,可以解决下游任务。最近的几项研究表明,在自回归(AR)预训练期间,Transformer学习了一个mesa-optimizer来实现ICL。换句话说,训练后的Transformer的前向传递等效于在上下文中优化内部目标函数。然而,实际的非凸训练动态是否会收敛到理想的mesa-optimizer仍然不清楚。为了填补这一空白,我们研究了通过梯度流自回归训练的一层线性因果自注意模型的非凸动态,其中序列由AR过程生成 x t + 1 = W x t x_{t+1} = W x_t xt+1=Wxt。首先,在一定的数据分布条件下,我们证明了自回归训练的Transformer通过实施一步梯度下降来学习 W W W,以在上下文中最小化普通最小二乘(OLS)问题。然后,它应用学到的 W ^ \widehat{W} W 进行下一个token的预测,从而验证了mesa-optimization假设。接下来,在相同的数据条件下,我们探索了获得的mesa-optimizer的能力限制。我们证明了与数据矩相关的更强的假设是学到的mesa-optimizer恢复分布的充分必要条件。此外,我们进行了超出第一个数据条件的探索性分析,并证明通常训练后的Transformer不会对OLS问题执行普通的梯度下降。最后,我们的模拟结果验证了理论结果。
论文链接: https://arxiv.org/pdf/2405.16845
原标题: LLM-Based Cooperative Agents using Information Relevance and Plan Validation
作者: SeungWon Seo, Junhyeok Lee, SeongRae Noh, HyeongYeop Kang
机构: Kyung Hee University
摘要: 我们解决了多智能体合作的挑战,其中智能体通过与3D场景的交互和与分散智能体的合作来实现共同目标,在复杂的部分观测下进行合作。这涉及到管理通信成本和优化在动态环境中的交互轨迹。我们的研究关注现有合作智能体系统存在的三个主要限制。首先,当前系统在通过观察获得的信息管理方面表现出低效,导致在环境变得更加复杂时,规划性能下降,包括额外的对象或目标。其次,在部分可观察的情况下忽视错误计划会导致次优的合作性能,因为智能体难以适应受其他智能体看不见的行动影响的环境变化。最后,未能将空间数据纳入决策过程中限制了智能体构建优化轨迹的能力。为了克服这些限制,我们提出了REVECA(RElevance and Validation-Enhanced Cooperative Language Agent),这是一种由GPT-3.5驱动的新型认知架构。REVECA利用相关性评估、计划验证和空间信息来增强动态和部分可观察环境中智能体合作的效率和鲁棒性,同时最小化连续通信成本并有效管理无关的虚拟对象。我们的大量实验证明了REVECA相对于以GPT-4.0为驱动的先前方法的优越性。此外,用户研究突出了REVECA在实现可信人工智能合作方面的潜力。我们预计REVECA将在游戏、XR应用、教育工具和人形机器人等领域具有重要应用,为经济、商业和学术进步做出重大贡献。
论文链接: https://arxiv.org/pdf/2405.16751
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。