当前位置:   article > 正文

2024年6月18日Arxiv大语言模型相关论文_iterative length-regularized direct preference opt

iterative length-regularized direct preference optimization:a case study on

cs.CL: 利用可编辑的外部知识进行语言建模

原标题: Language Modeling with Editable External Knowledge

作者: Belinda Z. Li, Emmy Liu, Alexis Ross, Abbas Zeitoun, Graham Neubig, Jacob Andreas

机构: 麻省理工学院 卡内基梅隆大学

摘要: 当世界发生变化时,人类所写的文本也会随之改变。我们如何构建能够轻松更新以反映这些变化的语言模型?一种流行的方法是检索增强生成,其中新文档被插入到知识库中,并在预测过程中被检索用于下游任务。大多数先前的工作都集中在通过更好的检索或推理来改进预测过程中的行为。本文介绍了ERASE,它通过逐渐删除或重写知识库中的其他条目来改进模型在获取新文档时的行为,每次添加文档时都会进行这样的操作。在评估模型回答关于一系列新闻文章或对话的问题的两个新基准数据集中,ERASE相对于传统的检索增强生成提高了7-13%(Mixtral-8x7B)和6-10%(Llama-3-8B)的绝对准确性。代码和数据可在此网址获得。

论文链接: https://arxiv.org/pdf/2406.11830

Github: https://github.com/belindal/ERASE

cs.CL: 迭代长度正则化直接偏好优化:改进7B语言模型至GPT-4水平的案例研究

原标题: Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level

作者: Jie Liu, Zhanhui Zhou, Jiaheng Liu, Xingyuan Bu, Chao Yang, Han-Sen Zhong, Wanli Ouyang

机构: 香港中文大学 计算机视觉实验室 上海人工智能实验室

摘要: 直接偏好优化(DPO)是一种用于使语言模型与人类偏好保持一致的标准方法,传统上应用于离线偏好。最近的研究表明,DPO 受益于使用由训练有素的奖励模型标记的在线偏好进行迭代训练。在这项工作中,我们发现纯粹的迭代 DPO 存在一个缺陷 - 改进的响应质量可能导致冗长的回复。为了解决这个问题,我们引入了迭代长度正则化 DPO(iLR-DPO)来惩罚响应长度。我们的实证结果表明,iLR-DPO 可以使一个 7B 模型在不增加冗长的情况下表现与 GPT-4 相当。具体来说,我们的 7B 模型在 AlpacaEval 2.0 上以 50.5 % 50.5\% 50.5% 的长度受控胜率击败了 GPT-4   预览 \texttt{GPT-4 预览} GPT-4 预览,并在 MT-Bench、Arena-Hard 和 OpenLLM 排行榜等标准基准测试中表现出色。这些结果证明了迭代 DPO 在使语言模型与人类反馈保持一致方面的有效性。

论文链接: https://arxiv.org/pdf/2406.11817

cs.CL: 大语言模型在预训练期间如何获取事实知识?

原标题: How Do Large Language Models Acquire Factual Knowledge During Pretraining?

作者: Hoyeon Chang, Jinho Park, Seonghyeon Ye, Sohee Yang, Youngkyung Seo, Du-Seong Chang, Minjoon Seo

机构:KAIST UCL KT

摘要: 尽管最近观察到大语言模型(LLMs)可以存储大量事实知识,但对它们通过预训练获取事实知识的机制了解有限。本研究通过研究LLMs在预训练期间如何获取事实知识来填补这一空白。研究结果揭示了LLMs在预训练期间获取事实知识动态的几个重要见解。首先,令人意外的是,我们观察到在更多数据上的预训练并没有显著改善模型获取和保持事实知识的能力。其次,训练步骤与遗忘记忆和事实知识泛化之间存在幂律关系,使用重复训练数据训练的LLMs表现出更快的遗忘。第三,使用更大的批量大小训练LLMs可以增强模型对遗忘的稳健性。总的来说,我们的观察表明,在LLM预训练中,事实知识的获取是通过逐步增加每个步骤中呈现在预训练数据中的事实知识的概率来实现的。然而,这种增加会被随后的遗忘所稀释。基于这一解释,我们证明了我们可以对LLMs最近观察到的行为提供合理的解释,比如LLMs在长尾知识上的表现不佳以及去重预训练语料库的好处。

论文链接: https://arxiv.org/pdf/2406.11813

cs.CL: WPO: 使用加权偏好优化增强RLHF

原标题: WPO: Enhancing RLHF with Weighted Preference Optimization

作者: Wenxuan Zhou, Ravi Agrawal, Shujian Zhang, Sathish Reddy Indurthi, Sanqiang Zhao, Kaiqiang Song, Silei Xu, Chenguang Zhu

机构: Zoom Video Communications

摘要: 强化学习从人类反馈(RLHF)是将大型语言模型(LLMs)与人类价值观更紧密对齐的一种有前途的解决方案。离策略偏好优化,其中偏好数据是从其他模型获取的,由于其成本效益和可扩展性而被广泛采用。然而,离策略偏好优化经常受到用于数据收集的策略和目标策略之间的分布差距的困扰,导致次优的优化。在本文中,我们提出了一种新的策略,通过使用离策略偏好数据模拟策略内学习来缓解这个问题。我们的加权偏好优化(WPO)方法通过根据当前策略下的概率重新加权偏好对,使离策略数据更接近于策略内数据。这种方法不仅解决了分布差距问题,还增强了优化过程,而不会产生额外成本。我们在包括 Alpaca Eval 2 和 MT-bench 在内的指令遵循基准上验证了我们的方法。WPO 不仅在 Alpaca Eval 2 上比直接偏好优化(DPO)高出多达 5.6%,而且基于 Llama-3-8B-Instruct,对抗 GPT-4-turbo 取得了惊人的长度控制胜率达到 48.6%,使其成为排行榜上最强大的 8B 模型。我们将在此 https URL 上发布代码和模型。

论文链接: https://arxiv.org/pdf/2406.11827

Github: https://github.com/wzhouad/WPO

cs.CL: RepLiQA:用于在未见参考内容上对大语言模型进行基准测试的问答数据集

原标题: RepLiQA: A Question-Answering Dataset for Benchmarking LLMs on Unseen Reference Content

作者: Joao Monteiro, Pierre-Andre Noel, Etienne Marcotte, Sai Rajeswar, Valentina Zantedeschi, David Vazquez, Nicolas Chapados, Christopher Pal, Perouz Taslakian

机构: ServiceNow Research Mila – Québec Artifical Intelligence Institute

摘要: 大语言模型(LLMs)是在大量数据上进行训练的,其中大部分数据是从互联网上自动获取的。这些数据包括包含大量通用知识的百科全书文档(例如维基百科),但也可能与用于评估LLMs的基准数据集重叠。因此,在可能已泄露到训练集中的测试拆分上评估模型容易导致误导性结论。为了促进语言模型的有效评估,我们引入了一个名为RepLiQA的新测试数据集,适用于问答和主题检索任务。RepLiQA是一个包含五个测试集拆分的集合,其中有四个在此出版之前尚未发布到互联网或暴露给LLM API。RepLiQA中的每个样本包括(1)由人类注释者撰写的描述虚构场景(例如新闻文章)的参考文档;(2)关于文档主题的问题;(3)直接从文档信息中提取的真实答案;以及(4)包含答案的从参考文档中提取的段落。因此,只有在模型能够在提供的文档中找到相关内容时,才能生成准确的答案。我们进行了大规模的基准测试,涵盖了几种最先进的LLMs,以揭示在上下文条件语言建模环境中各种类型和大小的模型性能差异。RepLiQA的发布拆分可以在此处找到:https://这里的URL。

论文链接: https://arxiv.org/pdf/2406.11811

其他链接: https://huggingface.co/datasets/ServiceNow/repliqa

cs.CL: 安全算术:通过引导参数和激活来实现语言模型测试时安全对齐的框架

原标题: Safety Arithmetic: A Framework for Test-time Safety Alignment of Language Models by Steering Parameters and Activations

作者: Rima Hazra, Sayan Layek, Somnath Banerjee, Soujanya Poria

机构: 新加坡科技与设计大学 印度理工学院哈拉格普分校

摘要: 确保大语言模型(LLMs)与人类价值观的安全对齐对于它们成为翻译和问题回答等应用的重要性至关重要。当前的对齐方法在处理动态用户意图和复杂目标时存在困难,使模型容易生成有害内容。我们提出了Safety Arithmetic,这是一个无需训练的框架,可以增强LLM在不同场景下的安全性:基础模型、监督微调模型(SFT)和编辑模型。Safety Arithmetic包括有害方向去除以避免生成有害内容,以及安全对齐以促进安全响应。此外,我们提出了NoIntentEdit,这是一个突出显示编辑实例的数据集,如果无意中使用可能会危及模型安全。我们的实验表明,Safety Arithmetic显著改善了安全性指标,减少了过度安全性,并保持了模型的效用,在确保生成安全内容方面优于现有方法。

论文链接: https://arxiv.org/pdf/2406.11801

cs.CL: CELL 您的模型:大语言模型的对比解释方法

原标题: CELL your Model: Contrastive Explanation Methods for Large Language Models

作者: Ronny Luss, Erik Miehling, Amit Dhurandhar

机构: IBM Research

摘要: 深度神经网络黑盒分类模型的出现引发了对其决策解释的需求。然而,在生成式人工智能(如大语言模型LLMs)的情况下,没有类别预测需要解释。相反,人们可以询问为什么大语言模型对给定提示输出特定的回复。本文通过提出我们所知的第一个仅需要黑盒/查询访问的对比解释方法来回答这个问题。我们的解释表明,大语言模型对给定提示输出回复是因为如果提示稍作修改,大语言模型将给出一个不同的回应,这个回应要么不太可取,要么与原始回应相矛盾。关键的见解是,对比解释只需要一个对用户有意义的距离函数,而不一定需要特定回应的实值表示(即类别标签)。我们提供了两种寻找对比解释的算法:i) 一种近视算法,虽然在创建对比方面有效,但需要进行多次模型调用;ii) 一种预算算法,我们的主要算法贡献,它可以智能地创建符合查询预算的对比,这对于更长的上下文是必要的。我们展示了这些方法在各种自然语言任务上的有效性,例如开放文本生成、自动红队行动和解释对话退化。

论文链接: https://arxiv.org/pdf/2406.11785

cs.CL: 改进稀疏通信拓扑的多智能体辩论

原标题: Improving Multi-Agent Debate with Sparse Communication Topology

作者: Yunxuan Li, Yibing Du, Jiageng Zhang, Le Hou, Peter Grabowski, Yeqing Li, Eugene Ie

机构: 谷歌 深智谷

摘要: 多智能体辩论已被证明在提高大型语言模型在推理和事实任务中的质量方面非常有效。虽然在多智能体辩论中已经探索了各种角色扮演策略,但在智能体之间的通信方面,现有方法采用了一种蛮力算法 – 每个智能体都可以与所有其他智能体进行通信。在本文中,我们系统地研究了多智能体系统中通信连接性的影响。我们在 GPT 和 Mistral 模型上的实验表明,利用稀疏通信拓扑的多智能体辩论可以在显著降低计算成本的同时实现可比或更优的性能。此外,我们将多智能体辩论框架扩展到多模态推理和对齐标注任务,展示了其广泛的适用性和有效性。我们的发现强调了通信连接性对增强“心智社会”方法的效率和有效性的重要性。

论文链接: https://arxiv.org/pdf/2406.11776

cs.CL: MDCR:用于多文档条件推理的数据集

原标题: MDCR: A Dataset for Multi-Document Conditional Reasoning

作者: Peter Baile Chen, Yi Zhang, Chunwei Liu, Sejal Gupta, Yoon Kim, Michael Cafarella

机构: 麻省理工学院 AWS AI实验室

摘要: 相同的现实问题提给不同的个体可能会根据他们独特的情况得出不同的答案。例如,一个学生是否有资格获得奖学金取决于资格条件,比如所需的专业或学位。ConditionalQA 被提出来评估模型阅读文档并回答资格问题的能力,考虑未提及的条件。然而,它仅限于单个文档上的问题,忽略了可能需要跨文档推理和优化的更难情况,例如,“最大可获得奖学金数量是多少?”这样的跨文档问题不仅更具挑战性,因为需要理解更多上下文,而且还因为模型必须(1)探索所有可能的未提及条件的组合和(2)理解跨文档之间的条件关系,以推理出最佳结果。为了评估模型回答此类问题的能力,我们提出了一个新的数据集 MDCR,它可以反映现实世界的挑战,并作为需要优化的复杂条件推理的新测试基础。我们使用最新的大语言模型来评估这个数据集,并展示它们在解决这一任务上的局限性。我们相信这个数据集将促进未来研究,以回答具有未知条件的优化问题。

论文链接: https://arxiv.org/pdf/2406.11784

cs.CL: 交互式进化:一种用于大语言模型的神经符号自训练框架

原标题: Interactive Evolution: A Neural-Symbolic Self-Training Framework For Large Language Models

作者: Fangzhi Xu, Qiushi Sun, Kanzhi Cheng, Jun Liu, Yu Qiao, Zhiyong Wu

机构: 西安交通大学 上海人工智能实验室 香港大学 南京大学

摘要: 大语言模型(LLMs)表现优异的主要驱动力之一是人类标注的自然语言数据的广泛可用性,这些数据用于对齐微调。这激发了研究人员对自我训练方法的调查,以减少对人类注释的广泛依赖。然而,目前自我训练的成功主要观察到在自然语言场景中,而不是在日益重要的神经符号场景中。为此,我们提出了一个名为ENVISIONS的环境引导的神经符号自我训练框架。它旨在克服两个主要挑战:(1)符号数据的稀缺性,以及(2)LLMs在处理符号语言方面的有限熟练度。在三个不同领域进行的广泛评估表明了我们方法的有效性。此外,我们进行了全面分析,揭示了促成ENVISIONS成功的因素,从而为该领域的未来研究提供了宝贵的见解。代码将在\url{this https URL}上提供。

论文链接: https://arxiv.org/pdf/2406.11736

Github: https://github.com/xufangzhi/ENVISIONS

cs.CL: 一种基于语义的层冻结方法,用于有效微调语言模型

原标题: A Semantic-based Layer Freezing Approach to Efficient Fine-Tuning of Language Models

作者: Jian Gu, Aldeida Aleti, Chunyang Chen, Hongyu Zhang

机构: 莫纳什大学 Technical University of Munich 慕尼黑工业大学 重庆大学

摘要: 微调语言模型(LMs)对于使模型适应下游数据和任务至关重要。然而,完全的微调通常代价高昂。现有的工作,如参数高效微调(PEFT),通常侧重于“如何微调”,但忽略了“在哪里微调”的问题。作为回答在哪里微调(在层级上)的开创性工作,我们对LM推理过程进行了语义分析。我们首先提出了潜在表示的虚拟转换,然后追踪其实际转换。基于转换中的偏差,我们估计了微调每个模型层的收益,并进一步缩小了微调的范围。我们在众所周知的LMs和数据集上进行了大量实验。结果表明,我们的方法既有效又高效,并且优于现有的基准线。我们的方法与现有的高效技术(如PEFT方法)正交,为LM微调提供了实用价值。

论文链接: https://arxiv.org/pdf/2406.11753

cs.CL: 指导而非辅助:基于LLM的多轮规划和分层提问,用于苏格拉底式代码调试

原标题: Instruct, Not Assist: LLM-based Multi-Turn Planning and Hierarchical Questioning for Socratic Code Debugging

作者: Priyanka Kargupta, Ishika Agarwal, Dilek Hakkani-Tur, Jiawei Han

机构: 伊利诺伊大学香槟分校

摘要: 苏格拉底式的质疑是一种有效的教学策略,鼓励批判性思维和问题解决能力。大语言模型(LLMs)的对话能力显示出在提供可扩展的、实时的学生指导方面具有巨大潜力。然而,当前的LLMs通常直接给出解决方案,使它们成为无效的教师。我们通过TreeInstruct来解决这个问题,它是一个由一种新颖的基于状态空间的规划算法指导的教练智能体,用于代码调试领域。TreeInstruct通过提出深入的问题来帮助学生独立地识别和解决错误。它根据学生的回答和当前的知识状态动态估计学生的概念和句法知识,有效地同时处理独立和依赖性错误,并在多轮交互设置中构建问题树。除了使用现有的单一错误调试基准之外,我们构建了一个更具挑战性的包含150个编码问题、错误解决方案和错误修复的多错误数据集,所有这些都是由专家精心构建和注释的。广泛的评估显示TreeInstruct在这两个数据集上具有最先进的性能,证明它比基线更有效。此外,对五名技能水平不同的学生进行的一个真实案例研究进一步证明了TreeInstruct指导学生高效调试他们的代码的能力,且轮数较少且具有高度苏格拉底式的质疑。

论文链接: https://arxiv.org/pdf/2406.11709

cs.CL: 在指导调整过程中的零样本泛化:来自相似性和粒度的见解

原标题: Zero-Shot Generalization during Instruction Tuning: Insights from Similarity and Granularity

作者: Bingxiang He, Ning Ding, Cheng Qian, Jia Deng, Ganqu Cui, Lifan Yuan, Huan-ang Gao, Huimin Chen, Zhiyuan Liu, Maosong Sun

机构: 清华大学 中国人民大学 伊利诺伊大学厄巴纳-香槟分校

摘要: 理解对齐技术始于理解指导调整带来的零样本泛化,但对其机制的理解还很有限。现有工作主要局限在任务层面,而没有考虑到任务是人为定义的,对于LLMs来说,任务仅仅由标记和表示组成。这一研究方向一直局限于从任务对的角度考察任务之间的迁移,很少有研究关注从数据本身的角度理解零样本泛化。为了弥补这一差距,我们首先通过多种度量表明,在指导调整期间零样本泛化发生得非常早。接下来,我们从数据相似性和粒度的角度研究了零样本泛化的促进作用,确认在指导调整期间早期遇到高度相似和细粒度的训练数据,而不受定义的“任务”约束,能够实现更好的泛化。最后,我们提出了一种更加基于实际的训练数据排列方法,即测试中心的多轮排列,并展示了它在促进持续学习和进一步减少损失方面的有效性。我们首次展示了在指导调整期间零样本泛化是训练数据和测试数据在实例级别上基于相似性的泛化形式。我们希望我们的分析能推动对指导调整期间零样本泛化的理解,并有助于发展更加对齐的LLMs。我们的代码已发布在此 https URL。

论文链接: https://arxiv.org/pdf/2406.11721

Github: https://github.com/HBX-hbx/dynamics_of_zero-shot_generalization

cs.CL: 大语言模型的元推理

原标题: Meta Reasoning for Large Language Models

作者: Peizhong Gao, Ao Xie, Shaoguang Mao, Wenshan Wu, Yan Xia, Haipeng Mi, Furu Wei

机构: 清华大学 微软研究

摘要: 我们介绍了元推理提示(MRP),这是一种新颖高效的大语言模型(LLMs)系统提示方法,受人类元推理启发而来。传统的上下文学习推理技术,如“思维树”,表现出潜力,但由于其专业化特性,缺乏在各种任务中始终领先的性能。MRP通过引导LLMs根据每个任务的特定要求动态选择和应用不同的推理方法来解决这一局限性,从而优化性能和计算效率。有了MRP,LLM推理分为两个阶段。首先,LLM使用任务输入线索和可用方法的客观描述来识别最合适的推理方法。随后,它应用所选择的方法来完成任务。这种动态策略反映了人类的元推理,使模型能够在各种问题领域中表现出色。我们通过全面的基准测试评估了MRP的有效性。结果表明,MRP在各种任务中实现了或接近了最先进的性能。MRP代表了在使LLMs能够识别跨问题的认知挑战并利用不同推理方法的优势方面取得的重大进展,增强了它们处理多样化和复杂问题领域的能力。每个LLM都应该有一个元推理提示,以释放其全部潜力,并确保在不断变化的挑战和应用领域中具有适应性。

论文链接: https://arxiv.org/pdf/2406.11698

cs.CL: Nemotron-4 340B 技术报告

原标题: Nemotron-4 340B Technical Report

作者: Nvidia: Bo Adler, Niket Agarwal, Ashwath Aithal, Dong H. Anh, Pallab Bhattacharya, Annika Brundyn, Jared Casper, Bryan Catanzaro, Sharon Clay, Jonathan Cohen, Sirshak Das, Ayush Dattagupta, Olivier Delalleau, Leon Derczynski, Yi Dong, Daniel Egert, Ellie Evans, Aleksander Ficek, Denys Fridman, Shaona Ghosh, Boris Ginsburg, Igor Gitman, Tomasz Grzegorzek, Robert Hero, Jining Huang, Vibhu Jawa, Joseph Jennings, Aastha Jhunjhunwala, John Kamalu, Sadaf Khan, Oleksii Kuchaiev, Patrick LeGresley, Hui Li, Jiwei Liu, Zihan Liu, Eileen Long, Ameya Sunil Mahabaleshwarkar, Somshubra Majumdar, James Maki, Miguel Martinez, Maer Rodrigues de Melo, Ivan Moshkov, Deepak Narayanan, Sean Narenthiran, Jesus Navarro, Phong Nguyen, Osvald Nitski, Vahid Noroozi, Guruprasad Nutheti, Christopher Parisien, Jupinder Parmar, Mostofa Patwary, Krzysztof Pawelec, Wei Ping, Shrimai Prabhumoye, Rajarshi Roy, Trisha Saar, Vasanth Rao Naik Sabavat, Sanjeev Satheesh, Jane Polak Scowcroft, Jason Sewall, Pavel Shamis, Gerald Shen, Mohammad Shoeybi, Dave Sizer, Misha Smelyanskiy, Felipe Soares, Makesh Narsimhan Sreedhar, Dan Su, Sandeep Subramanian, Shengyang Sun, Shubham Toshniwal, Hao Wang, Zhilin Wang, Jiaxuan You, Jiaqi Zeng, Jimmy Zhang, Jing Zhang, Vivienne Zhang, Yian Zhang, Chen Zhu

机构: NVIDIA

摘要: 我们发布了Nemotron-4 340B模型系列,包括Nemotron-4-340B-Base、Nemotron-4-340B-Instruct和Nemotron-4-340B-Reward。我们的模型在NVIDIA开放模型许可协议下开放访问,这是一种宽松的模型许可协议,允许分发、修改和使用模型及其输出。这些模型在各种评估基准上表现出色,并且在部署时以FP8精度在单个DGX H100上使用8个GPU。我们相信社区可以从这些模型中受益,特别是在各种研究和商业应用中,尤其是用于生成合成数据来训练较小的语言模型。值得注意的是,我们模型对齐过程中使用的数据中超过98%是合成生成的,展示了这些模型在生成合成数据方面的有效性。为了进一步支持开放研究并促进模型开发,我们还公开了在我们的模型对齐过程中使用的合成数据生成管道。

论文链接: https://arxiv.org/pdf/2406.11704

cs.CL: 标记化不足:标记化的诅咒

原标题: Tokenization Falling Short: The Curse of Tokenization

作者: Yekun Chai, Yewei Fang, Qiwei Peng, Xuhong Li

机构: 百度 模型之最 哥本哈根大学

摘要: 语言模型通常将原始文本标记为预定义词汇的子词标识序列,这个过程本质上对错别字、长度变化敏感,并且在很大程度上忽视了标记的内部结构——我们称之为标记化的诅咒。在这项研究中,我们深入探讨了这些缺点,并证明了大语言模型(LLMs)仍然容易受到这些问题的影响。这项研究系统地调查了这些挑战及其对LLMs的影响,通过三个关键的研究问题:(1)复杂问题解决,(2)标记结构探测,以及(3)对错别字变化的弹性。我们的研究结果表明,扩展模型参数可以缓解标记化的问题;然而,LLMs仍然受到由错别字和其他文本格式变化引起的偏见的影响。我们的实验表明,诸如BPE-dropout之类的子词正则化可以缓解这一问题。我们将发布我们的代码和数据,以促进进一步的研究。

论文链接: https://arxiv.org/pdf/2406.11687

cs.CL: HoLLMwood: 通过角色扮演释放大语言模型在剧本创作中的创造力

原标题: HoLLMwood: Unleashing the Creativity of Large Language Models in Screenwriting via Role Playing

作者: Jing Chen, Xinyu Zhu, Cheng Yang, Chufan Shi, Yadong Xi, Yuxiang Zhang, Junjie Wang, Jiashu Pu, Rongsheng Zhang, Yujiu Yang, Tian Feng

机构: 浙江大学 网易有限公司富士人工智能实验室 清华大学 早稻田大学

摘要: 生成式人工智能在计算机视觉领域展现了前所未有的创造力,然而在自然语言处理领域并未观察到这样的现象。特别是,由于文学写作的极高复杂性,大语言模型(LLMs)几乎无法产生达到人类专家水平的作品。在本文中,我们提出了HoLLMwood,这是一个用于释放LLMs创造力并探索它们在编剧领域潜力的自动化框架,这是一个非常苛刻的任务。模仿人类创作过程,我们将LLMs分配到参与现实场景的不同角色中。除了将LLMs视为 W r i t e r {Writer} Writer的常见做法外,我们还将LLMs应用为 E d i t o r {Editor} Editor,负责为 W r i t e r {Writer} Writer提供反馈和修改建议。此外,为了丰富角色并加深情节,我们引入了角色扮演机制,并采用LLMs作为可以相互沟通和互动的 A c t o r s {Actors} Actors。对自动生成的剧本的评估表明,HoLLMwood在连贯性、相关性、趣味性和整体质量方面明显优于强基线。

论文链接: https://arxiv.org/pdf/2406.11683

cs.CL: 优化指令和演示,用于多阶段语言模型程序

原标题: Optimizing Instructions and Demonstrations for Multi-Stage Language Model Programs

作者: Krista Opsahl-Ong, Michael J Ryan, Josh Purtell, David Broman, Christopher Potts, Matei Zaharia, Omar Khattab

机构: 斯坦福大学 KTH 皇家理工学院 加州大学伯克利分校 Basis

摘要: 语言模型程序,即由模块化语言模型(LM)调用构成的复杂流水线,正在越来越多地推动自然语言处理任务,但它们需要制定对所有模块都有效的提示。我们研究了LM程序的提示优化,即如何更新这些提示以最大化下游指标,而无需访问模块级标签或梯度。为了使这一过程可行,我们将问题分解为优化每个模块的自由形式指令和少样本演示,并引入了几种策略来制定面向任务的指令并在模块之间导航信用分配。我们的策略包括(i)为提出有效指令而采用的程序和数据感知技术,(ii)用于学习我们目标的替代模型的随机小批量评估函数,以及(iii)一种元优化过程,在这个过程中我们改进LMs随时间构建提案的方式。利用这些见解,我们开发了MIPRO,一种新型优化器,在使用最佳开源模型(Llama-3-8B)的六个不同LM程序中,准确率高达12.9%的情况下,优于基线。我们将在此 https URL 上发布我们的新优化器和DSPy中的基准测试。

论文链接: https://arxiv.org/pdf/2406.11695

Github: https://github.com/stanfordnlp/dspy

cs.CL: R-Eval: 用于评估检索增强大语言模型领域知识的统一工具包

原标题: R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models

作者: Shangqing Tu, Yuanchun Wang, Jifan Yu, Yuyang Xie, Yaran Shi, Xiaozhi Wang, Jing Zhang, Lei Hou, Juanzi Li

机构: 清华大学 人民大学 北航 Univerisity

摘要: 大语言模型在一般自然语言处理任务上取得了显著的成功,但在特定领域的问题上可能表现不佳。最近,提出了各种检索增强大语言模型(RALLMs)来解决这一缺点。然而,现有的评估工具只提供了一些基线,并在各种领域上进行评估,而没有挖掘领域知识的深度。在本文中,我们通过引入 R-Eval 工具包来解决评估 RALLMs 的挑战,这是一个设计用于简化与LLMs结合评估不同RAG工作流程的Python工具包。我们的工具包支持流行的内置RAG工作流程,并允许在特定领域上合并定制的测试数据,旨在用户友好、模块化和可扩展。我们对21个RALLMs进行了三个任务级别和两个代表性领域的评估,揭示了RALLMs在不同任务和领域中的有效性存在显著差异。我们的分析强调了在选择RAG工作流程和LLM组合时考虑任务和领域要求的重要性。我们致力于持续维护我们的平台,以促进行业和研究人员。

论文链接: https://arxiv.org/pdf/2406.11681

Github: https://github.com/THU-KEG/R-Eval

cs.CL: Endor: 用于离线LLM推理的硬件友好稀疏格式

原标题: Endor: Hardware-Friendly Sparse Format for Offloaded LLM Inference

作者: Donghyeon Joo, Ramyad Hadidi, Soheil Feizi, Bahar Asgari

机构: 马里兰大学 计算机科学系 Rain AI

摘要: 大语言模型(LLMs)的不断增大挑战了它们在资源受限平台上的使用。例如,现代 GPU 的内存不足以容纳数百GB大小的LLMs。卸载是一种常用的方法,通过将LLM模型的权重存储到主机CPU内存和固态硬盘,然后在每次使用之前将每个权重加载到GPU中来摆脱这一限制。在我们的卸载推断案例研究中,我们发现由于存储设备和GPU之间的低带宽,将大模型权重从其卸载位置传输到GPU内存的延迟成为实际计算几乎占运行时间的关键瓶颈。为了有效减少权重传输延迟,我们提出了一种新颖的稀疏格式,将修剪的LLM权重的非结构化稀疏模式压缩为高压缩比和低解压开销的非零值。Endor通过使用位图表示非零元素的位置来实现这一点。与使用流行的Huggingface Accelerate进行卸载推断相比,应用Endor可以将OPT-66B加速1.70倍,将Llama2-70B加速1.78倍。当利用从固态硬盘直接传输权重到GPU时,Endor可以将OPT-66B加速2.25倍,将Llama2-70B加速2.37倍。

论文链接: https://arxiv.org/pdf/2406.11674

cs.CL: 知识越狱:一个知识点价值一个攻击

原标题: Knowledge-to-Jailbreak: One Knowledge Point Worth One Attack

作者: Shangqing Tu, Zhuoran Pan, Wenxuan Wang, Zhexin Zhang, Yuliang Sun, Jifan Yu, Hongning Wang, Lei Hou, Juanzi Li

机构: 清华大学 北京航空航天大学 香港中文大学

摘要: 大语言模型(LLMs)已经越来越多地应用于各个领域,这引发了人们对LLMs在专业领域(例如医学)安全性的日益关注。然而,由于现有基准测试中缺乏基于领域知识驱动的攻击,测试LLMs的领域特定安全性具有挑战性。为了弥补这一差距,我们提出了一个新任务,即知识破解,旨在从领域知识中生成破解,以评估LLMs应用于这些领域时的安全性。我们收集了一个包含12,974个知识破解对的大规模数据集,并对一个大语言模型进行微调,作为破解生成器,以生成特定领域知识的破解。对13个领域和8个目标LLMs的实验表明,破解生成器在生成与给定知识相关且对目标LLMs有害的破解方面的有效性。我们还将我们的方法应用于一个领域外的知识库,结果显示破解生成器可以生成与人类专家制作的破解在有害程度上可比的破解。数据和代码:this https URL。

论文链接: https://arxiv.org/pdf/2406.11682

Github: https://github.com/THU-KEG/Knowledge-to-Jailbreak/

cs.CL: LLM检测的基准测试:比较两种竞争方法。

原标题: Benchmarking of LLM Detection: Comparing Two Competing Approaches

作者: Thorsten Pröhl, Erik Putzier, Rüdiger Zarnekow

机构: 柏林工业大学

摘要: 本文概述了LLM文本识别领域。介绍了用于识别LLM生成文本的不同方法和实现的检测器。除了讨论实现外,文章还专注于对检测器进行基准测试。尽管有许多用于识别LLM生成文本的软件产品,重点放在类似ChatGPT的LLM上,但识别质量(识别率)并不清楚。此外,虽然可以看到提出其新颖方法的科学贡献力求与其他方法进行某种比较,但评估数据集的构建和独立性通常难以理解。因此,由于不同的基准测试数据集,LLM检测器的性能评估中经常出现差异。本文描述了评估数据集的创建,并使用该数据集研究不同的检测器。所选的检测器相互进行了基准测试。

论文链接: https://arxiv.org/pdf/2406.11670

cs.CL: 从我的角度看:诊断大型视觉语言模型在图像理解中的西方文化偏见

原标题: See It from My Perspective: Diagnosing the Western Cultural Bias of Large Vision-Language Models in Image Understanding

作者: Amith Ananthram, Elias Stengel-Eskin, Carl Vondrick, Mohit Bansal, Kathleen McKeown

机构: 哥伦比亚大学 北卡罗来纳大学教堂山分校

摘要: 视觉语言模型(VLMs)可以用多种语言回答关于图像的查询。然而,除了语言之外,文化也会影响我们对事物的看法。例如,来自西方文化的个体更关注图像中的中心人物,而来自东方文化的个体更关注场景背景。在这项工作中,我们提出了一项新颖的调查,展示了并定位了VLMs在图像理解中的西方偏见。我们通过对具有不同文化背景的图像和注释进行主观和客观的视觉任务评估大型VLMs。我们发现,VLMs在每个任务的西方子集上的表现优于东方子集。通过对这种偏见来源进行控制实验,突出了在仅进行英文推理时,多样化语言混合在建立公平的VLMs方面的重要性。此外,虽然在目标文化的语言中进行提示可以减少偏见,但这并不能替代建立更具代表性的世界语言的人工智能。

论文链接: https://arxiv.org/pdf/2406.11665

cs.CL: “未对齐”不等于“恶意”: 谨防大语言模型越狱的幻觉

原标题: “Not Aligned” is Not “Malicious”: Being Careful about Hallucinations of Large Language Models’ Jailbreak

作者: Lingrui Mei, Shenghua Liu, Yiwei Wang, Baolong Bi, Jiayi Mao, Xueqi Cheng

机构: 中国科学院计算技术研究所 中国科学院大学 加州大学洛杉矶分校 清华大学

摘要: “越狱”是大语言模型(LLMs)的一个重大安全问题,当恶意提示导致LLMs产生有害输出时,会引发关于LLMs可靠性和安全性的问题。因此,对越狱的有效评估对于开发其缓解策略非常关键。然而,我们的研究发现,当前评估所识别的许多越狱实际上可能是幻觉-被误认为是真实安全漏洞的错误输出。这一发现表明,一些被认为的漏洞可能并不代表实际威胁,这表明需要更精确的红队基准。为解决这一问题,我们提出了可靠性和越狱幻觉评估基准(BabyBLUE)。BabyBLUE引入了一个专门的验证框架,包括各种评估者,以增强现有的越狱基准,确保输出是有用的恶意指令。此外,BabyBLUE提出了一个新的数据集作为现有红队基准的补充,专门解决越狱中的幻觉,旨在评估越狱的LLM输出对人类社会造成真正危害的潜力。

论文链接: https://arxiv.org/pdf/2406.11668

cs.CL: 文化条件或安慰剂?关于社会人口学提示的有效性

原标题: Cultural Conditioning or Placebo? On the Effectiveness of Socio-Demographic Prompting

作者: Sagnik Mukherjee, Muhammad Farid Adilazuarda, Sunayana Sitaram, Kalika Bali, Alham Fikri Aji, Monojit Choudhury

机构: 迪拜人工智能大学 微软研究院 印度

摘要: 社会人口学提示是一种常用的方法,用于研究LLMs中的文化偏见,以及将模型与特定文化对齐。在本文中,我们系统地探究了四个LLMs(Llama 3、Mistral v0.2、GPT-3.5 Turbo和GPT-4),这些模型使用了在被认为是文化敏感(EtiCor和CALI)或中性(MMLU和ETHICS)的数据集上的文化敏感和非敏感提示。我们观察到,除了GPT-4之外的所有模型在两种类型的数据集上对两种类型的提示都显示出显著的响应变化,这对于文化条件提示作为一种引发模型文化偏见或对齐策略的稳健性提出了质疑。这项工作还呼吁重新思考对照实验设计,以区分响应的文化调节和“安慰剂效应”,即由于提示中的任意标记而导致模型响应的随机扰动。

论文链接: https://arxiv.org/pdf/2406.11661

cs.CL: Ruby Teaming: 使用记忆改进自动红队行动的质量多样性搜索

原标题: Ruby Teaming: Improving Quality Diversity Search with Memory for Automated Red Teaming

作者: Vernon Toh Yan Han, Rishabh Bhardwaj, Soujanya Poria

机构: 新加坡科技与设计大学

摘要: 我们提出了 Ruby Teaming 方法,它通过将内存缓存作为第三维度,改进了 Rainbow Teaming。内存维度为变异器提供提示,以产生更高质量的提示,无论是攻击成功率(ASR)还是质量多样性方面。Ruby Teaming 生成的提示存档具有 74% 的 ASR,比基准线高出 20%。在质量多样性方面,Ruby Teaming 在 Shannon’s Evenness Index(SEI)和 Simpson’s Diversity Index(SDI)上分别比 Rainbow Teaming 高出 6% 和 3%。

论文链接: https://arxiv.org/pdf/2406.11654

cs.CL: 大语言模型基本率效应对基准性能的影响:从基准性能中消除测试策略歧义。

原标题: The Base-Rate Effect on LLM Benchmark Performance: Disambiguating Test-Taking Strategies from Benchmark Performance

作者: Kyle Moore, Jesse Roberts, Thao Pham, Oseremhen Ewaleifoh, Doug Fisher

机构: 范德堡大学 田纳西理工大学 贝里亚学院

摘要: 填空测试是衡量大语言模型在许多基准任务上行为的常见方法。使用MMLU数据集,我们发现答案标记之间的基本概率(BRP)差异显著,并影响任务表现,即在不确定的情况下猜测A。我们发现反事实提示确实足以减轻BRP效应。发现BRP效应与人类采用的考试策略具有类似的影响,导致任务表现和考试能力混淆。我们提出了Nvr-X-MMLU任务,这是MMLU的一种变体,有助于区分考试能力和任务表现,并报告后者。

论文链接: https://arxiv.org/pdf/2406.11634

cs.CL: 使用 GPT-4 的二维零样本对话状态跟踪评估方法

原标题: A Two-dimensional Zero-shot Dialogue State Tracking Evaluation Method using GPT-4

作者: Ming Gu, Yan Yang

机构: 华东师范大学

摘要: 对话状态跟踪(DST)是通过精确匹配方法进行评估的,这些方法依赖大量标记数据并忽略语义一致性,导致过度评估。目前,在评估自然语言处理任务时,利用大语言模型(LLM)已经取得了令人期待的结果。然而,使用LLM进行DST评估仍未得到充分探讨。在本文中,我们提出了一种使用GPT-4的二维零样本评估方法,将评估分为两个维度:准确性和完整性。此外,我们还设计了两条手动推理路径,以进一步提高评估的准确性。实验结果表明,我们的方法相对于基线实现了更好的性能,并且与传统的基于精确匹配的方法一致。

论文链接: https://arxiv.org/pdf/2406.11651

cs.CL: 大语言模型能成为个性化法官吗?

原标题: Can LLM be a Personalized Judge?

作者: Yijiang River Dong, Tiancheng Hu, Nigel Collier

机构: 剑桥大学

摘要: 确保大型语言模型(LLMs)反映多样化的用户价值观和偏好对于它们的全球用户群的扩大至关重要。因此,看到研究界对LLM个性化越来越感兴趣是令人鼓舞的。然而,当前的研究往往依赖于LLM作为评判者的方法进行评估,而没有彻底检验其有效性。在本文中,我们调查了LLM作为个性化评判者的可靠性,要求LLMs根据人设来评判用户偏好。我们的研究结果表明,直接应用LLM作为个性化评判者比先前假设的可靠性要低,与人类真实情况的一致性低且不稳定。通常使用的人设过于简单,导致预测能力低。为了解决这些问题,我们将口头不确定性估计引入LLM作为个性化评判者的流程中,使模型能够对不确定判断表达低置信度。这一调整导致在二元任务的高确定性样本上达成更高的一致性(超过80%)。通过人类评估,我们发现LLM作为个性化评判者在高确定性样本上实现了与第三方人类评估相当的性能,甚至超过了人类在高确定性样本上的表现。我们的工作表明,增强确定性的LLM作为个性化评判者为开发更可靠和可扩展的方法评估LLM个性化提供了一个有前途的方向。

论文链接: https://arxiv.org/pdf/2406.11657

cs.CL: 能够进行多样本上下文学习有助于长上下文大语言模型的判断吗?看得更多,判断得更好!

原标题: Can Many-Shot In-Context Learning Help Long-Context LLM Judges? See More, Judge Better!

作者: Mingyang Song, Mao Zheng, Xuan Luo

机构: 腾讯MLPD

摘要: 利用大语言模型(LLMs)作为评估LLMs性能的评判者最近引起了关注。然而,这种方法同时引入了来自LLMs的潜在偏见,引发了对评估结果可靠性的担忧。为了缓解这一问题,我们提出并研究了两种版本的多样本上下文提示,即强化和无监督ICL,以帮助GPT-4o作为评判者进行单个答案评分。基于设计的提示,我们调查了增加上下文示例数量对评估的一致性和质量的影响。此外,我们首次揭示了GPT-4o作为评判者中的符号偏见,用于成对比较,然后提出了一种简单而有效的缓解方法。实验结果表明,像GPT-4o这样的先进长上下文LLMs在多样本制度下的表现优于零样本制度下的表现。与此同时,实验结果进一步验证了符号偏见缓解方法的有效性。

论文链接: https://arxiv.org/pdf/2406.11629

cs.CL: 构建知识引导的词典以模拟文化变化

原标题: Building Knowledge-Guided Lexica to Model Cultural Variation

作者: Shreya Havaldar, Salvatore Giorgi, Sunny Rai, Thomas Talhelm, Sharath Chandra Guntuku, Lyle Ungar

机构: 宾夕法尼亚大学 芝加哥大学

摘要: 不同国家之间存在文化差异(例如,美国与中国),而且在各个地区内部也存在文化差异(例如,加利福尼亚与德克萨斯,洛杉矶与旧金山)。测量这种地区文化差异可以阐明人们思考和行为方式的不同之处以及其原因。从历史上看,由于缺乏训练数据和可扩展性的限制,计算模拟文化差异一直很困难。在这项工作中,我们为自然语言处理(NLP)社区提出了一个新的研究问题:我们如何使用语言来衡量不同地区之间文化构建的差异?然后,我们提供了一个可扩展的解决方案:构建知识引导的词汇表来模拟文化差异,鼓励未来在自然语言处理和文化理解交叉领域的工作。我们还强调了现代大语言模型(LLM)在衡量文化差异或生成具有文化差异的语言方面的失败。

论文链接: https://arxiv.org/pdf/2406.11622

cs.CL: DELLA-Merging: 通过基于幅度的抽样减少模型合并中的干扰

原标题: DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling

作者: Pala Tej Deep, Rishabh Bhardwaj, Soujanya Poria

机构: 新加坡科技与设计大学

摘要: 随着领域特定模型的大量出现,模型合并已经成为一组技术,将多个模型的能力合并成一个可以进行多任务处理而无需额外训练成本的模型。在本文中,我们提出了一种新的模型合并技术,即通过采样和幅度缩放的删除(DELLA-Merging),它采用了一种新颖的修剪技术MAGPRUNE,相对于DARE和TIES显示出显著优势。MAGPRUNE首先按照其幅度对参数进行排名,并为幅度较低的参数分配更高的随机丢弃概率(p)。为了近似原始嵌入,MAGPRUNE通过1/(1 - p)的幅度缩放操作对幸存的参数进行操作。在考虑合并的三个不同专家模型(LM、Math、Code)和相应的基准数据集(AlpacaEval、GSM8K、MBPP)上,DELLA相对于采用增量参数修剪的基准方法显示出平均改进了2.4个点(相对于TIES改进了3.6个点,相对于DARE改进了1.2个点),相对于无修剪基准(TA)改进了11.1个点。我们在以下网址发布了源代码:https://此网址。

论文链接: https://arxiv.org/pdf/2406.11617

Github: https://github.com/declare-lab/della

cs.CL: 理解 NLP 和 ML 研究中的“民主化”

原标题: Understanding “Democratization” in NLP and ML Research

作者: Arjun Subramonian, Vagrant Gautam, Dietrich Klakow, Zeerak Talat

机构: 加州大学洛杉矶分校 萨尔兰大学 谢赫穆罕默德人工智能大学

摘要: 自然语言处理(NLP)和机器学习(ML)的最新进展以及主流采用的增加,导致研究人员经常讨论人工智能的“民主化”。在本文中,我们试图通过对使用关键词“democra*”发表在NLP和相关会场的论文进行大规模混合方法分析,澄清NLP和ML出版物中对民主化的理解。我们发现,民主化最常用于传达对技术的(便捷)访问或使用,而没有实质性地涉及民主化理论,而使用其他“democra*”召唤的研究往往基于辩论和讨论理论。根据我们的发现,我们呼吁研究人员丰富他们对民主化术语的使用,以适当的理论,朝着超越表面访问的民主化技术。

论文链接: https://arxiv.org/pdf/2406.11598

cs.CL: 揭示源力量:基于源的最小贝叶斯风险解码用于神经机器翻译

原标题: Unveiling the Power of Source: Source-based Minimum Bayes Risk Decoding for Neural Machine Translation

作者: Boxuan Lyu, Hidetaka Kamigaito, Kotaro Funakoshi, Manabu Okumura

机构: 东京工业大学 奈良先端科学技术大学院

摘要: 最大后验解码是神经机器翻译(NMT)中常用的方法,旨在最大化估计的后验概率。然而,高估计概率并不总是导致高翻译质量。最小贝叶斯风险(MBR)解码通过寻找具有最高期望效用的假设提供了一种替代方法。
在这项工作中,我们展示了质量估计(QE)重新排序,它使用QE模型作为重新排序器,可以被视为MBR的一种变体。受此启发,我们提出了基于源的MBR(sMBR)解码,这是一种利用由反向翻译生成的合成源作为“支持假设”,并使用无参考质量估计度量作为效用函数的新方法,标志着首次仅使用源进行MBR解码的工作。实验证明,sMBR明显优于QE重新排序,并与标准MBR解码具有竞争力。此外,与MBR相比,sMBR调用效用函数的次数更少。我们的研究结果表明,sMBR是一种有前途的高质量NMT解码方法。

论文链接: https://arxiv.org/pdf/2406.11632

cs.CL: 使用参数化知识迹线对遗忘的内在评估

原标题: Intrinsic Evaluation of Unlearning Using Parametric Knowledge Traces

作者: Yihuai Hong, Lei Yu, Shauli Ravfogel, Haiqin Yang, Mor Geva

机构: 华南理工大学 多伦多大学 巴伊兰大学 国际数字经济学院 以色列特拉维夫大学

摘要: 最近,“遗忘”大语言模型(LLMs)中某些概念的任务引起了极大关注,因为这对于减轻不良模型行为(如生成有害、私密或不正确信息)具有重要意义。目前用于评估遗忘方法的协议主要依赖行为测试,而不监测模型参数中遗忘知识的存在。这种残余知识可以被对抗性地利用,以在遗忘后恢复被删除的信息。我们认为,遗忘还应该在内部进行评估,考虑到被遗忘概念的参数化知识痕迹的变化。为此,我们提出了一种通用方法,用于引发参数空间中的方向(称为“概念向量”),以编码具体概念,并构建了ConceptVectors,一个包含两个开源LLMs中数百个常见概念及其参数化知识痕迹的基准数据集。在ConceptVectors上的评估显示,现有的遗忘方法对概念向量的影响很小,而直接消除这些向量明显地从LLMs中删除了相关知识,并显著降低了它们对对抗性操纵的敏感性。我们的结果突显了基于行为的遗忘评估的局限性,并呼吁未来的工作包括基于参数的评估。为了支持这一点,我们在此https URL上发布了我们的代码和基准。

论文链接: https://arxiv.org/pdf/2406.11614

Github: https://github.com/yihuaihong/ConceptVectors

cs.CL: 多次迭代偏好优化的风格转移

原标题: Style Transfer with Multi-iteration Preference Optimization

作者: Shuai Liu, Jonathan May

机构: 南加州大学 信息科学研究所

摘要: 最近,许多文本风格转换的技术都将它们的方法描述为强化学习和偏好优化的变体。在这项工作中,我们考虑了这些方法与一类主要用于(非神经网络)统计机器翻译的优化方法之间的关系,这些方法以前被称为“调优”。受过去这些技术的启发,我们改进了已建立的偏好优化方法,结合了多次探索和优化,并通过“希望”与“恐惧”抽样策略选择对比例子。然而,我们意识到机器翻译和风格转换之间的差异,因此我们进一步通过新的伪并行生成方法和动态加权奖励聚合方法来定制我们的框架,以解决缺乏并行数据和需要多目标奖励的问题。我们在两个常用的文本风格转换数据集上评估了我们的模型。通过自动和人工评估结果,我们展示了我们的模型相对于最先进的基线模型的有效性和优越性。

论文链接: https://arxiv.org/pdf/2406.11581

cs.CL: 错误跨度标注:人工翻译机器评估的平衡方法

原标题: Error Span Annotation: A Balanced Approach for Human Evaluation of Machine Translation

作者: Tom Kocmi, Vilém Zouhar, Eleftherios Avramidis, Roman Grundkiewicz, Marzena Karpinska, Maja Popović, Mrinmaya Sachan, Mariya Shmatova

机构: 微软 ETH苏黎世 DFKI 马萨诸塞大学阿默斯特分校 都柏林城市大学 Dubformer

摘要: 高质量的机器翻译(MT)评估在很大程度上依赖于人类判断。综合的错误分类方法,如多维质量度量(MQM),由于耗时且只能由专家完成,因此成本高昂,而且专家的可用性可能会受到限制,尤其是对于低资源语言。另一方面,仅仅分配总体评分,如直接评估(DA),更简单更快速,可以由任何水平的翻译人员完成,但可靠性较低。在本文中,我们介绍了错误跨度标注(ESA),这是一种人类评估协议,它将DA的连续评分与MQM的高级错误严重性跨度标记相结合。我们通过将ESA与MQM和DA进行比较,对来自WMT23的12个MT系统和一种人类参考翻译(英语到德语)进行了验证。结果表明,ESA在相同质量水平下比MQM提供了更快速和更便宜的注释,而且不需要昂贵的MQM专家。

论文链接: https://arxiv.org/pdf/2406.11580

cs.CL: 数学实体:语料库和基准测试

原标题: Mathematical Entities: Corpora and Benchmarks

作者: Jacob Collard, Valeria de Paiva, Eswaran Subrahmanian

机构: 国家标准与技术研究所、拓扑学研究所、卡内基梅隆大学

摘要: 数学是一个高度专业化的领域,具有其独特的一系列挑战。尽管如此,对于数学文本的自然语言处理研究相对较少,针对自然语言处理的数学语言资源也很少。在本文中,我们旨在提供可用于研究数学语言的带注释语料库,涵盖从教科书中的基本概念到高级研究数学的不同语境。我们使用神经解析模型和一些手动干预对语料库进行预处理,以提供词性标记、词形和依存树。总共,我们提供了三个语料库中的182397个句子。然后,我们旨在使用这些语料库测试和评估几个值得注意的自然语言处理模型,以展示它们在数学领域如何适应并提供探索数学语言的有用工具。我们针对从语料库元数据中提取的基准对比了几个神经和符号模型,以显示术语提取和定义提取不容易泛化到数学领域,需要进一步工作才能在这些指标上取得良好的性能。最后,我们提供了一个学习助手,以一种上下文敏感的方式访问这些语料库的内容,利用文本搜索和实体链接。尽管我们的语料库和基准提供了评估数学语言处理的有用指标,但需要进一步工作来使模型适应数学,以提供更有效的学习助手,并将自然语言处理方法应用于不同的数学领域。

论文链接: https://arxiv.org/pdf/2406.11577

cs.CL: 大语言模型中文化能力的外部评估

原标题: Extrinsic Evaluation of Cultural Competence in Large Language Models

作者: Shaily Bhatt, Fernando Diaz

机构: 卡内基梅隆大学

摘要: 多样化用户和语言技术之间的高效互动需要后者的输出在文化上具有相关性和敏感性。先前的研究评估了模型对文化规范、价值观和文化物品的了解,但没有考虑这种知识在下游应用中的表现。在这项工作中,我们专注于对两个文本生成任务中文化能力的外部评估,即开放式问题回答和故事生成。当明确提示中的文化线索(特别是国籍)被扰动时,我们定量和定性地评估模型的输出。尽管我们发现模型的输出在不同国家和特色文化相关词语的情况下会有所变化,但我们也发现了不同国家的输出文本相似性与这些国家的文化价值之间存在较弱的相关性。最后,我们讨论了在设计面向用户任务的文化能力全面评估中的重要考虑因素。

论文链接: https://arxiv.org/pdf/2406.11565

cs.CL: 朝向一个端到端的框架,用于利用大语言模型进行侵入性脑信号解码

原标题: Towards an End-to-End Framework for Invasive Brain Signal Decoding with Large Language Models

作者: Sheng Feng, Heyang Liu, Yu Wang, Yanfeng Wang

机构: 上海交通大学 合作型中间创新中心 人工智能实验室

摘要: 在这篇论文中,我们介绍了一种突破性的端到端(E2E)框架,用于解码侵入性脑信号,标志着言语神经假肢领域的重大进展。我们的方法利用大语言模型(LLMs)的全面推理能力来促进直接解码。通过充分整合LLMs,我们实现了与最先进级联模型可比较的结果。我们的发现强调了端到端框架在言语神经假肢中的巨大潜力,特别是随着脑-计算机界面(BCIs)技术和相关数据集的不断发展。这项工作不仅展示了将LLMs与E2E解码相结合以增强言语神经假肢的功效,还为BCI应用的未来研究开辟了新方向,强调了LLMs在解码复杂神经信号以恢复交流方面的影响。代码将在此https网址上提供。

论文链接: https://arxiv.org/pdf/2406.11568

Github: https://github.com/FsFrancis15/BrainLLM

cs.CL: 基于输入条件的语言智能体图生成

原标题: Input Conditioned Graph Generation for Language Agents

作者: Lukas Vierling, Jie Fu, Kai Chen

机构: 香港科技大学

摘要: 最近大语言模型(LLMs)和语言智能体的进展已经在多个领域展示了巨大的潜力。传统的语言智能体方法通常依赖于固定的、手工设计的模式,而我们的研究旨在开发可学习和动态的智能体。我们的方法使用了一个将语言智能体抽象为图形的现有框架。在这个图形框架内,我们的目标是学习一个模型,可以为每个给定的语言智能体输入生成边缘。这使我们能够生成代表基于给定输入的图形内通信流动的边缘,从而调整语言智能体的内部通信。我们通过使用经过强化学习微调的预训练LLM来学习生成这些边缘。这个LLM可以同时在多个数据集上进行微调,我们假设模型在训练过程中学会了适应这些不同领域的数据,在部署时遇到不同领域的数据时能够取得良好的整体性能。我们证明我们的方法在MMLU和CMMLU的联合数据集上的准确率比以前的静态方法高出近6%,并且在使用稀疏诱导损失进行训练时高出10%以上。在MMLU和Mini Crossword Puzzles数据集上进行的额外实验中,它也表现出色。代码可在此 https URL 获取。

论文链接: https://arxiv.org/pdf/2406.11555

Github: https://github.com/lukasVierling/DynamicGPTSwarm

cs.CL: 使用预设立场进行反事实辩论,消除大语言模型的幻觉

原标题: Counterfactual Debating with Preset Stances for Hallucination Elimination of LLMs

作者: Yi Fang, Moxin Li, Wenjie Wang, Hui Lin, Fuli Feng

机构: 中国科学技术大学 新加坡国立大学 中国电子科技集团公司电子科学研究院 武汉大学

摘要: 大语言模型(LLMs)在各种自然语言处理任务中表现出色,但在产生幻觉问题上存在困难。现有解决方案考虑利用LLMs固有的推理能力来减轻幻觉,例如自我校正和多样化抽样方法。然而,由于固有偏见,这些方法通常会过分信任LLMs的初始答案。减轻这一问题的关键在于覆盖LLMs固有的偏见以进行答案检查。为此,我们提出了一个反事实多智能体辩论(CFMAD)框架。CFMAD通过规定LLMs的立场来覆盖它们的固有偏见,迫使LLMs为预定答案的正确性生成理由。具有不同预定立场的LLMs与怀疑批评者进行反事实辩论,讨论所生成理由的合理性。最终,辩论过程由第三方评委评估,以确定最终答案。对三个任务的四个数据集进行的大量实验表明CFMAD优于现有方法。

论文链接: https://arxiv.org/pdf/2406.11514

cs.CL: MEMLA: 使用神经元掩码低秩适应增强多语言知识编辑

原标题: MEMLA: Enhancing Multilingual Knowledge Editing with Neuron-Masked Low-Rank Adaptation

作者: Jiakuan Xie, Pengfei Cao, Yuheng Chen, Yubo Chen, Kang Liu, Jun Zhao

机构: 中国科学院自动化研究所 北京 中国 中国科学院大学 北京

摘要: 知识编辑旨在调整大语言模型(LLMs)中的知识,以防止它们的响应变得过时或不准确。然而,现有的知识编辑工作主要是在单一语言中进行的,这对于多语言模型来说是不足够的。在本文中,我们关注多语言知识编辑(MKE),这需要在多种语言之间传播更新。这种必要性为该任务带来了重大挑战。此外,针对MKE的全面数据集的有限可用性加剧了这一挑战,阻碍了该领域的进展。因此,我们引入了多语言知识编辑基准(MKEB),这是一个包含12种语言的新颖数据集,并提供了完整的评估框架。此外,我们提出了一种方法,通过神经元蒙版低秩适应(MEMLA)增强多语言知识编辑。具体来说,我们确定了两类知识神经元以提高编辑精度。此外,我们使用神经元蒙版进行基于LoRA的编辑,以高效修改参数并促进在多种语言之间传播更新。实验证明,我们的方法优于现有基线,并显著增强了编辑模型的多跳推理能力,对其下游任务性能的影响很小。该数据集和代码将公开提供。

论文链接: https://arxiv.org/pdf/2406.11566

cs.CL: CrAM: 在RAG中对抗虚假信息的大语言模型中的可信度感知注意力修改

原标题: CrAM: Credibility-Aware Attention Modification in LLMs for Combating Misinformation in RAG

作者: Boyi Deng, Wenjie Wang, Fengbin Zhu, Qifan Wang, Fuli Feng

机构: 中国科学技术大学 新加坡国立大学 Meta AI

摘要: 检索增强生成(RAG)可以通过引用外部文档缓解大语言模型(LLMs)的幻觉。然而,外部文档中的错误信息可能会误导LLMs的生成。为了解决这个问题,我们探索了“可信度感知RAG”的任务,LLMs可以根据文档的可信度分数自动调整检索文档的影响,以抵消错误信息。为此,我们引入了一种名为 Cr \textbf{Cr} Credibility-aware A \textbf{A} Attention M \textbf{M} Modification (CrAM)的即插即用方法。CrAM识别LLMs中具有影响力的注意力头,并根据文档的可信度调整它们的注意力分数,从而减少低可信度文档的影响。在Natual Questions和TriviaQA上进行的实验使用Llama2-13B、Llama3-8B和Qwen-7B表明,CrAM提高了LLMs对错误信息污染的RAG性能超过20%,甚至超过了监督微调方法。

论文链接: https://arxiv.org/pdf/2406.11497

cs.CL: 低资源跨语言转移的词汇扩展

原标题: Vocabulary Expansion for Low-resource Cross-lingual Transfer

作者: Atsuki Yamaguchi, Aline Villavicencio, Nikolaos Aletras

机构: 谢菲尔德大学 艾克塞特大学

摘要: 大语言模型(LLMs)在许多非英语语言中展现出了非凡的能力。然而,由于它们依赖于以英语为中心的分词器、词汇和预训练数据,在生成非英语文本时,LLMs 需要更多的推理步骤,导致非英语使用者的成本更高。通过目标语言标记的词汇扩展是一种广泛使用的跨语言词汇适应方法,用以解决这一问题。尽管在推理加速方面具有有效性,但大多数先前的工作都集中在高资源设置上,假设可以访问大量目标语言数据,以有效地初始化新标记的嵌入并使LLMs适应目标语言。然而,在低资源设置(即语言和计算)中尚未探索LLMs的词汇扩展。本文从不同角度研究了样本高效的适应策略,包括目标词汇大小和初始化方法,以及可用于适应的目标数据量。对于不同类型的语言、任务和模型进行了大量实验,结果表明,在低资源设置中,基于简单启发式的嵌入初始化更加高效和稳健,能够胜过一种流行的随机初始化方法和一种依赖外部数据和模型的更复杂的最先进方法。

论文链接: https://arxiv.org/pdf/2406.11477

cs.CL: 分析在临床记录中使用时间一致性进行零样本时间关系提取

原标题: Analysing zero-shot temporal relation extraction on clinical notes using temporal consistency

作者: Vasiliki Kougia, Anastasiia Sedova, Andreas Stephan, Klim Zaporojets, Benjamin Roth

机构: 维也纳大学 计算机科学学院 丹麦奥胡斯大学 文学和文化研究学院

摘要: 本文提出了关于生物医学文本中零样本情境下时间关系提取的第一项研究。我们利用两种类型的提示和五种大语言模型(GPT-3.5、Mixtral、Llama 2、Gemma 和 PMC-LLaMA)来获取关于两个事件之间时间关系的响应。我们的实验表明,在零样本情境下,大语言模型的表现不如经过精细调整的专门模型,以 F1 分数衡量,表明这对大语言模型来说是一个具有挑战性的任务。我们进一步通过计算每个大语言模型的一致性分数,为时间分析贡献了新颖的全面性。我们的研究结果显示,大语言模型在提供与独特性和传递性时间属性一致的响应方面面临挑战。此外,我们研究了大语言模型的时间一致性与其准确性之间的关系,以及通过解决时间不一致性是否可以提高准确性。我们的分析表明,即使在实现时间一致性时,预测仍可能不准确。

论文链接: https://arxiv.org/pdf/2406.11486

cs.CL: In-Context Alignment 能走多远?探索 In-Context Alignment 的现状

原标题: How Far Can In-Context Alignment Go? Exploring the State of In-Context Alignment

作者: Heyan Huang, Yinghao Li, Huashan Sun, Yu Bai, Yang Gao

机构: 北京理工大学 莆田北京理工东南学院信息技术学院

摘要: 最近的研究表明,通过使用特定的演示,上下文学习(ICL)可以使大语言模型(LLMs)与人类偏好保持一致,这被称为上下文对齐(ICA),表明模型可以理解人类指令而无需参数调整。然而,对ICA机制和适用性的探索仍然有限。本文首先将ICA中使用的上下文文本分为三类:格式、系统提示和示例。通过消融实验,我们研究了使ICA有效运行的每个部分的有效性。然后,我们研究了这些部分的变体如何影响模型的对齐性能。我们的研究结果表明,示例部分对增强模型的对齐能力至关重要,示例的变化显著影响对齐性能。我们还对ICA在各种对齐任务中的零样本能力进行了全面评估。结果表明,与参数微调方法相比,ICA在基于知识的任务和工具使用任务中表现出更优越的性能。然而,在多轮对话和指令遵循等领域,它仍然存在一定的局限性。

论文链接: https://arxiv.org/pdf/2406.11474

cs.CL: 自动化简易文本分割

原标题: Automating Easy Read Text Segmentation

作者: Jesús Calleja, Thierry Etchegoyhen, David Ponce

机构: 巴斯克研究与技术联盟(BRTA) 西班牙巴斯克大学UPV/EHU

摘要: 易读文本是阅读困难人群获取信息的主要形式之一。这种文本的关键特征之一是将句子分割成更小的语法片段,以便于阅读。自动分割方法可以促进易读内容的创建,但它们的可行性尚未得到解决。在这项工作中,我们研究了利用遮罩和生成语言模型以及成分分析的新方法,来完成这项任务。我们在三种语言中进行了全面的自动和人工评估,分析了在资源稀缺的情况下所提出的替代方案的优势和劣势。我们的结果突出了自动易读文本分割的可行性,以及与专家驱动的人工分割相比仍存在的不足之处。

论文链接: https://arxiv.org/pdf/2406.11464

cs.CL: 自适应强化学习规划:利用大语言模型进行复杂信息提取

原标题: Adaptive Reinforcement Learning Planning: Harnessing Large Language Models for Complex Information Extraction

作者: Zepeng Ding, Ruiyang Ke, Wenhao Huang, Guochao Jiang, Yanda Li, Deqing Yang, Yanghua Xiao, Jiaqing Liang

机构: 复旦大学 上海市数据科学重点实验室

摘要: 现有关于大语言模型(LLMs)的研究表明,它们可以通过多步规划解决信息提取任务。然而,它们在复杂句子和任务的提取行为是不稳定的,出现了假阳性和缺失元素等问题。我们观察到,将复杂的提取任务分解,并逐步提取可以有效提高LLMs的性能,并且实体的提取顺序显著影响LLMs的最终结果。本文提出了一种基于LLM的信息提取的两阶段多步方法,并采用RL框架来执行多步规划。我们将顺序提取视为马尔可夫决策过程,构建了基于LLM的提取环境,设计了一个决策模块,以自适应方式为不同句子的顺序实体提取提供最佳顺序,并利用DDQN算法来训练决策模型。我们还设计了适用于LLMs提取结果的奖励和评估指标。我们在多个公共数据集上进行了大量实验,以证明我们的方法在提高LLMs的信息提取能力方面的有效性。

论文链接: https://arxiv.org/pdf/2406.11455

cs.CL: Super(ficial)-alignment: 强模型可能在从弱到强的泛化中欺骗弱模型

原标题: Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization

作者: Wenkai Yang, Shiqi Shen, Guangyao Shen, Zhi Gong, Yankai Lin

机构: 人工智能高灵学院 腾讯公司

摘要: 超对齐,即人类作为超人类模型的弱监督者,已成为当前大语言模型(LLMs)快速发展时代中的重要和广泛讨论的问题。最近的研究通过使用弱模型监督强模型初步研究了这个问题。研究发现,弱监督的强学生可以始终胜过弱教师,达到对齐目标,导致了一种从弱到强的泛化现象。然而,我们担心在这样一个有前途的现象背后,是否存在弱到强的欺骗问题,即强模型可能通过在弱模型已知领域表现良好,但在弱模型不知道的情况下产生不对齐的行为来欺骗弱模型。然后,我们首次尝试探索这一安全问题,针对一个具体但现实的多目标对齐案例,在这种情况下,可能存在一些相互冲突的对齐目标(例如,有益性与无害性)。这种冲突可能导致强模型在一个对齐维度上欺骗弱模型,以在其他对齐维度上获得高回报。我们在奖励建模任务和偏好优化场景上的实验表明:(1)存在弱到强的欺骗现象;(2)随着弱模型和强模型之间的能力差距增大,欺骗现象可能加剧。我们还讨论了潜在的解决方案,并发现使用中间模型进行引导可以在一定程度上减轻欺骗现象。我们的工作强调了更加紧迫地需要更多关注超对齐的真实可靠性。

论文链接: https://arxiv.org/pdf/2406.11431

cs.CL: 追踪证据:构建基于知识的推理链以进行检索增强生成

原标题: TRACE the Evidence: Constructing Knowledge-Grounded Reasoning Chains for Retrieval-Augmented Generation

作者: Jinyuan Fang, Zaiqiao Meng, Craig Macdonald

机构: 格拉斯哥大学

摘要: 检索增强生成(RAG)为解决问答(QA)任务提供了一种有效的方法。然而,在RAG模型中的检索器的不完美往往会导致检索到无关信息,这可能会引入噪音并降低性能,特别是在处理需要多步推理的多跳问题时。为了增强RAG模型的多跳推理能力,我们提出了TRACE。TRACE构建了知识基础推理链,这是一系列逻辑连接的知识三元组,用于识别和整合从检索文档中获取的支持证据来回答问题。具体而言,TRACE利用KG生成器从检索文档中创建知识图(KG),然后使用自回归推理链构建器构建推理链。对三个多跳QA数据集的实验结果显示,与使用所有检索文档相比,TRACE的平均性能提升高达14.03%。此外,结果表明,使用推理链作为上下文,而不是整个文档,通常足以正确回答问题。

论文链接: https://arxiv.org/pdf/2406.11460

cs.CL: 承诺、展望和挑战:扩散语言建模

原标题: Promises, Outlooks and Challenges of Diffusion Language Modeling

作者: Justin Deschenaux, Caglar Gulcehre

机构: EPFL CLAIRE Lausanne EFPL

摘要: 现代自回归大语言模型(LLMs)在自然语言处理基准测试中取得了出色的表现,并且它们已经在现实世界中部署。然而,它们仍然受限于自回归训练范式的局限性。例如,自回归标记生成明显较慢,并且容易出现“曝光偏差”。扩散型语言模型被提出作为自回归生成的替代方案,以解决其中一些限制。我们评估了最近提出的得分熵离散扩散(SEDD)方法,并表明它是自回归生成的一个有前途的替代方案,但它也有一些缺点。我们通过实验证明了SEDD的优势和挑战,并观察到SEDD在困惑度和HellaSwag、Arc或WinoGrande等基准测试中通常与自回归模型相匹配。此外,我们展示了在推理延迟方面,SEDD比GPT-2高效多达4.5倍。虽然SEDD允许在任意位置上对标记进行条件设定,但在给定简短提示的条件生成方面,SEDD似乎略逊于GPT-2。最后,我们复现了原始SEDD论文的主要结果。

论文链接: https://arxiv.org/pdf/2406.11473

cs.CL: 一个简单而有效的基于 L 2 L_2 L2范数的KV缓存压缩策略

原标题: A Simple and Effective L 2 L_2 L2 Norm-Based Strategy for KV Cache Compression

作者: Alessio Devoto, Yu Zhao, Simone Scardapane, Pasquale Minervini

机构: 罗马大学 艾迪堡大学

摘要: 大语言模型(LLMs)的部署通常受到键-值(KV)缓存的广泛内存需求的限制,特别是随着上下文长度的增加。现有的减小KV缓存大小的方法包括微调模型以学习压缩策略,或者利用注意力分数来减少序列长度。我们分析了仅包含解码器的基于Transformer的模型中的注意力分布,并观察到大多数层的注意力分配模式保持一致。令人惊讶的是,我们发现缓存的KV对上的 L 2 L_2 L2和注意力分数之间存在明显的相关性,其中键嵌入的低 L 2 L_2 L2通常会导致解码过程中的高注意力分数。这一发现表明,KV对的影响可能在被查询之前就由键嵌入本身决定。基于这一观察,我们根据键嵌入的 L 2 L_2 L2来压缩KV缓存。我们的实验结果表明,这一简单策略可以在语言建模和大海捞针任务上将KV缓存大小减少50%,在取钥匙任务上减少90%,而不会丢失准确性。

论文链接: https://arxiv.org/pdf/2406.11430

cs.CL: 融合造就完美:一种高效的多粒度匹配方法,用于零样本关系抽取

原标题: Fusion Makes Perfection: An Efficient Multi-Grained Matching Approach for Zero-Shot Relation Extraction

作者: Shilong Li, Ge Bai, Zhang Zhang, Ying Liu, Chenji Lu, Daichi Guo, Ruifang Liu, Yong Sun

机构: 北京邮电大学

摘要: 在关系抽取中,预测训练阶段无法观察到的未见关系是一项具有挑战性的任务。先前的研究通过匹配输入实例和标签描述之间的语义来取得进展。然而,细粒度匹配通常需要繁琐的手动标注,并且实例与标签描述之间的丰富交互会带来显著的计算开销。在这项工作中,我们提出了一种高效的多粒度匹配方法,利用虚拟实体匹配来降低手动标注成本,并将粗粒度召回和细粒度分类融合,以保证推理速度的丰富交互。实验结果表明,我们的方法优于先前的最先进方法,并在零样本关系抽取任务中实现了推理效率和预测准确性的平衡。我们的代码可在此 https URL 上获得。

论文链接: https://arxiv.org/pdf/2406.11429

Github: https://github.com/longls777/EMMA

cs.CL: CodeGemma:基于Gemma的开放代码模型

原标题: CodeGemma: Open Code Models Based on Gemma

作者: CodeGemma Team

机构: 谷歌 LLC 深度学习团队

摘要: 这篇论文介绍了CodeGemma,这是建立在Gemma之上的一组专门的开放代码模型,能够执行各种代码和自然语言生成任务。我们发布了三个模型变体。CodeGemma 7B预训练(PT)和指令调整(IT)变体具有非常强大的自然语言理解能力,在数学推理方面表现出色,并且与其他开放模型的代码能力相匹配。CodeGemma 2B是一种最先进的代码补全模型,旨在在延迟敏感的环境中进行快速代码填充和开放式生成。

论文链接: https://arxiv.org/pdf/2406.11409

cs.CL: 评估开放式语言模型在任务类型、应用领域和推理类型上的表现:深入实验分析

原标题: Evaluating Open Language Models Across Task Types, Application Domains, and Reasoning Types: An In-Depth Experimental Analysis

作者: Neelabh Sinha, Vinija Jain, Aman Chadha

机构: 乔治亚理工学院 斯坦福大学 亚马逊GenAI

摘要: 语言模型(LMs)的快速崛起扩大了它们在多个应用中的使用。然而,由于模型大小的限制、相关成本或专有限制,利用最先进的大语言模型(SOTA LLMs)并非总是可行的。随着开放、更小的LMs的出现,更多的应用可以利用它们的能力,但选择合适的LM可能具有挑战性。本研究对10个更小的、开放的LMs的输出语义正确性进行了深入的实验分析,涵盖了任务类型、应用领域和推理类型三个方面,使用了多样的提示样式。我们证明了最有效的模型和提示样式因特定要求而异。我们的分析提供了对LMs和提示样式的比较评估,基于使用案例和其他限制,采用了三层方面的策略选择模式。我们还表明,如果适当利用,这些LMs可以与SOTA LLMs(如DeepSeek-v2、GPT-3.5-Turbo和GPT-4o)竞争,并有时表现更好。

论文链接: https://arxiv.org/pdf/2406.11402

cs.CL: HARE: 人类先验,小语言模型效率的关键

原标题: HARE: HumAn pRiors, a key to small language model Efficiency

作者: Lingyun Zhang, Bin jin, Gaojian Ge, Lunhui Liu, Xuewen Shen, Mingyong Wu, Houqian Zhang, Yongneng Jiang, Shiqi Chen, Shi Pu

机构: 中国电信贵州分公司 LiteAI

摘要: 人类先验在深度学习中高效利用数据中起着至关重要的作用。然而,随着大语言模型(LLMs)的发展,越来越强调模型规模和数据量的扩展,这往往会减弱数据构建中人类先验的重要性。受这些趋势的影响,现有的小语言模型(SLMs)主要依赖于网络抓取的大规模训练数据,忽视了正确整合人类先验的重要性。这一疏忽限制了语言模型在资源受限环境中的训练效率。在本文中,我们提出了一个原则,以利用人类先验进行数据构建。这一原则强调通过在一个既包含语义多样性又保持数据质量一致性的简明数据集上进行训练,同时避免基准数据泄漏,从而实现高性能的SLMs。遵循这一原则,我们训练了一个名为HARE-1.1B的SLM。对大规模基准数据集的大量实验表明,HARE-1.1B在性能上表现优异,验证了所提出原则的有效性。此外,这也从人类先验的角度为资源受限环境中的高效语言模型训练提供了新的见解。

论文链接: https://arxiv.org/pdf/2406.11410

cs.CL: BAMBINO-LM: (双语)人类启发式的BabyLM持续预训练

原标题: BAMBINO-LM: (Bilingual-)Human-Inspired Continual Pretraining of BabyLM

作者: Zhewen Shen, Aditya Joshi, Ruey-Cheng Chen

机构: 新南威尔士大学 悉尼 澳大利亚 Canva 悉尼 澳大利利亚

摘要: 来自双语背景的儿童受益于与父母和老师互动,以重新习得他们的传统语言。在本文中,我们研究了行为研究中的这一见解如何被纳入小规模语言模型的学习中。我们介绍了BAMBINO-LM,这是一种用于BabyLM的持续预训练策略,它使用了一种新颖的交替和基于PPO的困惑奖励,这些奖励来自一个意大利模型。在对英语和意大利语的零样本分类任务进行评估时,BAMBINO-LM提高了BabyLM基线的意大利语能力。我们的消融分析表明,采用交替策略和基于PPO的建模对于这种效果增益至关重要。我们还表明,作为一个副作用,所提出的方法导致L1效果的类似退化,就像人类儿童在等效的学习场景中会有的那样。

论文链接: https://arxiv.org/pdf/2406.11418

cs.CL: 大语言模型和知识图谱用于天文实体消歧。

原标题: Large Language Models and Knowledge Graphs for Astronomical Entity Disambiguation

作者: Golnaz Shapurian

摘要: 本文介绍了在一次黑客马拉松期间进行的实验,重点是利用大语言模型(LLMs)和知识图聚类来从天文文本中提取实体和关系。该研究展示了一种消除天文领域中可以出现在各种上下文中的实体歧义的方法。通过收集围绕特定实体的摘录,并利用 GPT-4 语言模型,提取相关实体和关系。然后利用 Leiden 算法对提取的信息构建知识图进行聚类。得到的 Leiden 社区被用来识别未知摘录与每个社区的关联百分比,从而实现消除歧义。该实验展示了在天文研究中结合LLMs和知识图聚类技术进行信息提取的潜力。结果突出了该方法在识别和消除实体歧义以及根据它们的关系将其分组为有意义的聚类方面的有效性。

论文链接: https://arxiv.org/pdf/2406.11400

cs.CL: 一个对大语言模型在文学文本引用归属中的实际评估:以LLaMa3为案例研究

原标题: A Realistic Evaluation of LLMs for Quotation Attribution in Literary Texts: A Case Study of LLaMa3

作者: Gaspard Michel, Elena V. Epure, Romain Hennequin, Christophe Cerisara

机构: 迪泽研究(Deezer Research) 洛里亚(Loria)

摘要: 大语言模型(LLMs)的零样本和少样本性能受到记忆和数据污染的影响,使它们的有效性评估变得复杂。在文学任务中,LLMs的表现通常与书籍记忆的程度相关。在这项工作中,我们对小说中引文归属的LLMs进行了实际评估,以Llama3的指导微调版本为例。我们设计了一个特定任务的记忆度量,并用它来展示Llama3在执行引文归属时与小说记忆程度呈正相关。然而,Llama3在没有记忆或见过的书籍上的表现仍然令人印象深刻。数据和代码将公开发布。

论文链接: https://arxiv.org/pdf/2406.11380

cs.CL: MetaGPT: 使用模型专属任务算术合并大型语言模型

原标题: MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic

作者: Yuyan Zhou, Liang Song, Bingning Wang, Weipeng Chen

机构: 百川公司

摘要: 大语言模型(LLMs)如 GPT-4 的出现催生了多任务学习(MTL)的探索,其中单一模型展现出跨多种任务的熟练能力。任务算术已经成为多任务学习的一种经济高效的方法。它通过将各自的任务向量添加到预训练模型中,实现了跨多个任务的性能提升。然而,目前缺乏一种能够同时实现最佳性能、计算效率和数据隐私的方法,限制了它们在大语言模型中的应用。在本文中,我们提出了用于合并 GPT 规模模型的“模型专属任务算术”(Model Exclusive Task Arithmetic),该方法将模型合并的目标形式化为多任务学习框架,旨在最小化合并模型与每个单独任务模型之间的平均损失差异。由于数据隐私限制了多任务训练数据的使用,我们利用了LLMs的局部线性性和任务向量的正交性,将数据项和缩放系数项分离开,并推导出了一种模型专属任务算术方法。我们提出的MetaGPT是数据无关的,并且绕过了繁重的搜索过程,使其对LLMs而言具有成本效益且易于实施。大量实验证明,MetaGPT改进了任务算术,并在多个任务上实现了最先进的性能。

论文链接: https://arxiv.org/pdf/2406.11385

cs.CL: 提升科学概念理解:老师模型的类比能赋予学生模型力量吗?

原标题: Boosting Scientific Concepts Understanding: Can Analogy from Teacher Models Empower Student Models?

作者: Siyu Yuan, Cheng Jiayang, Lin Qiu, Deqing Yang

机构: 复旦大学 香港科技大学 上海交通大学

摘要: 类比推理在人类认知中起着至关重要的作用,使我们能够通过将新概念与熟悉的概念联系起来来理解新概念。AI社区先前的研究主要集中在识别和生成类比,然后在人类评估下检查其质量,这忽视了这些类比在现实世界中的实际应用。受人类教育过程的启发,在本文中,我们提议研究由教师语言模型(LMs)创建的类比如何帮助学生LMs理解科学概念,从而更贴近实际场景。我们的结果表明,自由形式的类比确实可以帮助LMs理解概念。此外,学生LMs生成的类比可以提高它们在科学问题回答方面的表现,展示了它们利用类比进行自学新知识的能力。资源可在此网址获得。

论文链接: https://arxiv.org/pdf/2406.11375

Github: https://github.com/siyuyuan/SCUA

cs.CL: 更公平的偏好引发了人类对齐的大语言模型判断

原标题: Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments

作者: Han Zhou, Xingchen Wan, Yinhong Liu, Nigel Collier, Ivan Vulić, Anna Korhonen

机构: 剑桥大学 牛津大学

摘要: 大语言模型(LLMs)已经显示出作为评估语言生成质量的成本效益高且无需参考的评估器的有希望能力。特别是,成对的LLM评估器,它们比较两个生成的文本并确定首选文本,已经被广泛应用于各种应用中。然而,LLMs表现出偏好偏差和对提示设计的敏感性令人担忧。在这项工作中,我们首先揭示了LLMs的预测偏好可能非常脆弱和倾斜,即使在语义上等效的指令下也是如此。我们发现,来自LLMs的更公平的预测偏好始终导致与人类更好对齐的判断。受到这一现象的启发,我们提出了一个自动的零样本评估导向的提示优化框架ZEPO,旨在产生更公平的偏好决策,并提高LLM评估器与人类判断的对齐性。为此,我们提出了基于偏好决策公平性的零样本学习目标。ZEPO在代表性的元评估基准上展示了明显的性能改进,而无需标记数据。我们的发现强调了偏好公平性与人类对齐之间的关键相关性,将ZEPO定位为将LLM评估器与人类判断之间的差距的有效提示优化器。

论文链接: https://arxiv.org/pdf/2406.11370

cs.CL: 通过虚构角色嵌入来改进引文归属

原标题: Improving Quotation Attribution with Fictional Character Embeddings

作者: Gaspard Michel, Elena V. Epure, Romain Hennequin, Christophe Cerisara

机构: Deezer Research LORIA CNRS

摘要: 人类在文学作品中自然地将直接引用的话语归因于其发言者。在归因引用时,我们处理上下文信息,同时也访问我们在叙事中建立和修订的角色的心理表征。最近,自动归因这类话语的方法探索了使用确定性规则模拟人类逻辑,或者在处理上下文信息时学习新的隐式规则,采用神经网络。然而,这些系统固有地缺乏“角色”表征,这经常导致在更具挑战性的归因示例(指代和隐含引用)上出现错误。在这项工作中,我们提议通过为流行的引文归因系统BookNLP增加编码角色的全局信息的角色嵌入来改进。为了构建这些嵌入,我们创建了DramaCV,这是一个关注角色验证(CV)的英语戏剧作品语料库,涵盖了从15世纪到20世纪的戏剧,CV 任务类似于作者验证(AV),旨在分析虚构角色。我们在这个数据集上训练了一个类似于最近提出的AV模型Universal Authorship Representation (UAR)的模型,表明它在CV任务上优于当前的角色嵌入方法,并且对文学小说具有更好的泛化能力。然后,通过对22部小说进行广泛评估,我们展示了将BookNLP的上下文信息与我们提出的全局角色嵌入相结合,可以改善指代和隐含引用的发言者识别,达到了最先进的性能。代码和数据将公开提供。

论文链接: https://arxiv.org/pdf/2406.11368

cs.CL: 在大语言模型中保留知识:一种与模型无关的自解压方法

原标题: Preserving Knowledge in Large Language Model: A Model-Agnostic Self-Decompression Approach

作者: Zilun Zhang, Yutao Sun, Tiancheng Zhao, Leigang Sha, Ruochen Xu, Kyusong Lee, Jianwei Yin

机构: 浙江大学 浙江大学滨江研究院 Linker科技研究有限公司

摘要: 人类可以在学习新信息的同时保留旧知识,但大语言模型(LLMs)在后期预训练或监督微调(SFT)领域特定数据时经常出现灾难性遗忘。此外,对于由LLM基础和视觉投影仪(例如LLaVA)组成的多模态大语言模型(MLLMs),与它们的单模态对应物相比,在语言基准测试中观察到了显著的性能下降。为了解决这些挑战,我们引入了一种新颖的模型无关的自解压方法,Tree Generation(TG),它将LLMs内部的知识解压缩到训练语料中。本文重点介绍了TG-SFT,它可以为指导调整步骤合成生成SFT数据。通过在MLLMs的SFT过程中合并转储语料,我们显著减少了遗忘问题。

论文链接: https://arxiv.org/pdf/2406.11354

cs.CL: 全ECE:大语言模型上Token级校准的度量

原标题: Full-ECE: A Metric For Token-level Calibration on Large Language Models

作者: Han Liu, Yupeng Zhang, Bingning Wang, Weipeng Chen, Xiaolin Hu

机构: 清华大学 Baichuan 公司

摘要: 深度神经网络(DNNs)在各个领域表现出色,但在提供准确的不确定性估计方面面临挑战,而这对于高风险应用至关重要。大语言模型(LLMs)最近成为强大的工具,展现出在语言任务中的出色性能。然而,传统的校准指标,如期望校准误差(ECE)和类别级校准误差(cw-ECE),对于LLMs来说是不足够的,因为它们具有庞大的词汇量、数据复杂性和分布焦点。为了解决这个问题,我们提出了一个称为全校准的新型校准概念,并引入了相应的指标,即全ECE。全ECE评估整个预测概率分布,为LLMs提供了更准确和稳健的校准度量。

论文链接: https://arxiv.org/pdf/2406.11345

cs.CL: 通过上下文学习和反馈实现细粒度可控文本生成

原标题: Fine-grained Controllable Text Generation through In-context Learning with Feedback

作者: Sarubi Thillainathan, Alexander Koller

机构: 萨尔兰大学 Saarland University

摘要: 我们提出了一种方法,用于重写输入句子以匹配非平凡语言特征的特定值,例如依赖深度。与先前的工作相比,我们的方法使用上下文学习而不是微调,使其适用于数据稀疏的使用案例。我们展示了我们的模型执行准确的重写,并在将句子重写为指定学校年级水平方面达到了业界最高水平。

论文链接: https://arxiv.org/pdf/2406.11338

cs.CL: Refiner \textit{Refiner} Refiner: 有效地重构检索内容,以提升问答能力

原标题: Refiner \textit{Refiner} Refiner: Restructure Retrieval Content Efficiently to Advance Question-Answering Capabilities

作者: Zhonghao Li, Xuming Hu, Aiwei Liu, Kening Zheng, Sirui Huang, Hui Xiong

机构: 香港科技大学 清华大学 香港理工大学

摘要: 大语言模型(LLMs)受其参数化知识的限制,在知识广泛的任务中会出现幻觉。为了解决这个问题,检索增强生成(RAG)将外部文档片段纳入其中,以扩展LLM的知识。此外,通过从文档片段中提取或总结信息,可以改善LLM的性能。然而,LLMs仍然难以注意和利用分散的关键信息,这个问题被称为“中间迷失”综合症。因此,我们通常需要重新构造内容,以便LLM能够识别关键信息。我们提出了 Refiner \textit{Refiner} Refiner,这是一个端到端的提取和重构范式,它在RAG的后检索过程中运行。 Refiner \textit{Refiner} Refiner利用一个仅具有解码器的LLM,自适应地提取与查询相关的内容,以及必要的上下文,并根据它们的相互关联性对它们进行分段,从而突出信息的区别,并有效地将下游的LLMs与原始上下文对齐。实验证明,经过训练的 Refiner \textit{Refiner} Refiner(具有7B参数)在提高答案准确性方面对下游LLM有显著提升,并在各种单跳和多跳问答任务中优于其他最先进的RAG和并发压缩方法。值得注意的是,与下一个最佳解决方案相比, Refiner \textit{Refiner} Refiner在多跳任务中实现了80.5%的标记减少和1.6-7.0%的改进幅度。 Refiner \textit{Refiner} Refiner是一个即插即用的解决方案,可以无缝集成到RAG系统中,促进其在各种开源框架中的应用。

论文链接: https://arxiv.org/pdf/2406.11357

cs.CL: 大语言模型作为软推理者的系统分析:三段论推理案例

原标题: A Systematic Analysis of Large Language Models as Soft Reasoners: The Case of Syllogistic Inferences

作者: Leonardo Bertolazzi, Albert Gatt, Raffaella Bernardi

机构: 特伦托大学 乌得勒支大学

摘要: 大语言模型(LLMs)的推理能力正在成为自然语言处理中的研究重点。在本文中,我们考虑了三段论推理的情况,这是逻辑学和认知心理学中广泛研究的演绎推理领域。先前的研究表明,预训练的LLMs表现出推理偏见,如 内容效应 \textit{内容效应} 内容效应,避免回答 无结论可得 \textit{无结论可得} 无结论可得,表现出类似人类的困难,并且在多步推理中表现出困难。我们通过系统地调查思维链推理、上下文学习(ICL)和监督微调(SFT)对三段论推理的影响,考虑支持或违反世界知识的结论的三段论,以及具有多个前提的三段论,为这一研究线做出了贡献。至关重要的是,我们超越了对准确性的标准关注,深入分析了模型生成的结论。我们的结果表明,预训练LLMs的行为可以通过认知科学中研究的启发式来解释,并且ICL和SFT都可以提高模型对有效推理的性能,尽管只有后者能够减轻大部分推理偏见而不损害模型的一致性。

论文链接: https://arxiv.org/pdf/2406.11341

cs.CL: 对预训练Transformer的矩阵分解方法的实证研究

原标题: An Empirical Investigation of Matrix Factorization Methods for Pre-trained Transformers

作者: Ashim Gupta, Sina Mahdipour Saravani, P. Sadayappan, Vivek Srikumar

机构: 犹他大学 Kahlert 计算机学院

摘要: 最近,NLP 中基于 Transformer 模型的增大规模使得对它们进行压缩的问题变得重要起来。在这项工作中,我们提出了一种基于因子分解的模型压缩技术的全面分析。具体来说,我们专注于比较直接的低秩因子分解和最近引入的 Monarch 因子分解,后者在 GLUE 基准测试中展现出了令人印象深刻的性能保持。为了减轻与预训练 Transformer 中矩阵的低秩因子分解相关的稳定性问题,我们引入了一种分阶段因子分解方法,其中层级逐一进行因子分解,而不是同时进行因子分解。通过这种策略,我们显著增强了压缩过程的稳定性和可靠性。此外,我们引入了一种简单的分块低秩因子分解方法,它与 Monarch 因子分解有密切关系。我们的实验得出了一个令人惊讶的结论,即直接的低秩因子分解在不同的压缩比和六种不同的文本分类任务中始终优于 Monarch 因子分解。

论文链接: https://arxiv.org/pdf/2406.11307

cs.CL: 不设计,而是学习:一种可训练的得分函数,用于生成式大语言模型中的不确定性估计

原标题: Do Not Design, Learn: A Trainable Scoring Function for Uncertainty Estimation in Generative LLMs

作者: Duygu Nur Yaldiz, Yavuz Faruk Bakman, Baturalp Buyukates, Chenyang Tao, Anil Ramakrishna, Dimitrios Dimitriadis, Salman Avestimehr

机构: 南加州大学 Amazon AI

摘要: 在这项工作中,我们引入了可学习的响应评分函数(LARS)用于生成式大语言模型(LLMs)中的不确定性估计(UE)。当前基于概率的不确定性估计的评分函数,如长度归一化评分和基于语义贡献的加权,旨在解决问题的特定方面,但存在一些局限性,包括无法处理偏置概率以及在土耳其等资源稀缺的语言中表现不佳。为了解决这些问题,我们提出了LARS,这是一个利用监督数据来捕捉标记和概率之间复杂依赖关系的评分函数,从而在计算生成物的不确定性时产生更可靠和校准的响应评分。我们在多个数据集上进行了广泛的实验,结果显示,与考虑各种基于概率的不确定性估计方法的现有评分函数相比,LARS显著优于它们。

论文链接: https://arxiv.org/pdf/2406.11278

cs.CL: MFC-Bench: 使用大视觉-语言模型进行多模态事实检查的基准测试

原标题: MFC-Bench: Benchmarking Multimodal Fact-Checking with Large Vision-Language Models

作者: Shengkang Wang, Hongzhan Lin, Ziyang Luo, Zhen Ye, Guang Chen, Jing Ma

机构: 北京邮电大学 香港浸会大学 香港科技大学

摘要: 大视觉语言模型(LVLMs)显著改进了多模态推理任务,如视觉问答和图像字幕生成。这些模型将多模态事实嵌入其参数中,而不是依赖外部知识库来明确存储事实信息。然而,由于固有偏见或不正确推理,LVLMs 辨别的内容可能偏离实际事实。为解决这一问题,我们引入了 MFC-Bench,这是一个严格和全面的基准,旨在评估 LVLMs 在三个任务(操纵、脱离上下文和真实性分类)中的事实准确性。通过我们在 MFC-Bench 上的评估,我们对 12 个多样化和代表性的 LVLMs 进行了基准测试,揭示出当前模型在多模态事实核查方面仍存在不足,并且对各种形式的操纵内容表现出麻木不仁。我们希望 MFC-Bench 能引起对未来可能由 LVLMs 辅助的可信人工智能的关注。MFC-Bench 和相关资源可在此 https URL 上公开访问,有助于多模态事实核查领域的持续研究。

论文链接: https://arxiv.org/pdf/2406.11288

Github: https://github.com/wskbest/MFC-Bench

cs.CL: 一个系统性调查:从统计方法到大语言模型的文本摘要化

原标题: A Systematic Survey of Text Summarization: From Statistical Methods to Large Language Models

作者: Haopeng Zhang, Philip S. Yu, Jiawei Zhang

机构: 夏威夷大学马诺阿分校 伊利诺伊大学芝加哥分校 加利福尼亚大学戴维斯分校

摘要: 文本摘要研究随着深度神经网络、预训练语言模型(PLMs)和最近的大语言模型(LLMs)的出现经历了几次重大转变。因此,本调查通过这些范式转变的视角全面回顾了文本摘要研究的进展和演变。它分为两个主要部分:(1)LLM 时代之前数据集、评估指标和摘要方法的详细概述,包括传统统计方法、深度学习方法和 PLM 微调技术,以及(2)LLM 时代最新进展在基准测试、建模和评估摘要方面的首次详细考察。通过综合现有文献并提供一个连贯的概述,本调查还讨论了摘要研究的趋势、开放挑战,并提出了摘要研究中有前途的研究方向,旨在引导研究人员穿越摘要研究的不断发展的景观。

论文链接: https://arxiv.org/pdf/2406.11289

cs.CL: 大语言模型是否真正是医疗保健的万金油?在医学专业领域进行基准测试,超越医生考试。

原标题: Are Large Language Models True Healthcare Jacks-of-All-Trades? Benchmarking Across Health Professions Beyond Physician Exams

作者: Zheheng Luo, Chenhan Yuan, Qianqian Xie, Sophia Ananiadou

机构: 曼彻斯特大学

摘要: 最近大语言模型(LLMs)的最新进展表明它们在提供关于世界知识的准确答案方面具有潜力。尽管如此,现有用于评估医疗大语言模型的基准主要集中在医生身上,而其他关键的医疗职业却未得到充分代表。为了填补这一研究空白,我们引入了《中文医务人员考试》(EMPEC),这是一个开创性的大规模医疗知识基准,使用繁体中文。EMPEC包括124个科目和20个医疗职业的157,803道考试题,包括视光师和听力学家等未充分代表的职业。每道问题都标有发布时间和来源,确保相关性和真实性。我们对17个LLMs进行了广泛的实验,包括专有的、开源的模型、通用领域模型和医学特定模型,在各种设置下评估它们的性能。我们的研究结果显示,尽管像GPT-4这样的领先模型的准确率超过了75%,但它们在专业领域和替代医学方面仍然存在困难。令人惊讶的是,通用的大语言模型的表现优于医学特定模型,并且纳入EMPEC的训练数据显著提高了性能。此外,模型训练截止日期后发布的问题的结果与整体性能趋势一致,表明模型在测试集上的表现可以预测它们在解决未见过的与医疗相关的查询时的有效性。从繁体到简体中文字符的转变对模型性能影响微乎其微,表明其具有强大的语言多样性。我们的研究强调了扩大基准的重要性,以涵盖更广泛的医疗职业范围,以更好地评估大语言模型在真实医疗场景中的适用性。

论文链接: https://arxiv.org/pdf/2406.11328

cs.CL: 小型智能体也能出色!将小型语言模型赋能为幻觉检测器

原标题: Small Agent Can Also Rock! Empowering Small Language Models as Hallucination Detector

作者: Xiaoxue Cheng, Junyi Li, Wayne Xin Zhao, Hongzhi Zhang, Fuzheng Zhang, Di Zhang, Kun Gai, Ji-Rong Wen

机构: 中国人民大学高灵人工智能学院 Université de Montréal 快手

摘要: 幻觉检测对于大语言模型(LLMs)来说是一个具有挑战性的任务,现有研究严重依赖于强大的闭源LLMs,如GPT-4。在本文中,我们提出了一个名为HaluAgent的自主LLM智能体框架,使相对较小的LLMs(例如Baichuan2-Chat 7B)能够积极选择适合用于检测文本、代码和数学表达等多种幻觉类型的工具。在HaluAgent中,我们整合了LLM、多功能工具箱,并设计了一个细粒度的三阶段检测框架,同时还加入了记忆机制。为了促进HaluAgent的有效性,我们利用现有的中文和英文数据集合成检测轨迹进行微调,使HaluAgent具备双语幻觉检测的能力。大量实验证明,仅使用2K样本来调整LLMs,HaluAgent能够在各种类型的任务和数据集上执行幻觉检测,实现了与甚至高于GPT-4的性能,而且在领域内和领域外数据集上都没有进行工具增强。我们在此https URL上发布了我们的数据集和代码。

论文链接: https://arxiv.org/pdf/2406.11277

Github: https://github.com/RUCAIBox/HaluAgent

cs.CL: 跳层注意力:在Transformer中连接抽象和详细的依赖关系

原标题: Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers

作者: Qian Chen, Wen Wang, Qinglin Zhang, Siqi Zheng, Shiliang Zhang, Chong Deng, Hai Yu, Jiaqing Liu, Yukun Ma, Chong Zhang

机构: 阿里巴巴集团

摘要: Transformer架构显著推动了深度学习的发展,特别是在自然语言处理领域,通过有效地管理长距离依赖关系。然而,随着对理解复杂关系的需求增长,改进Transformer的架构变得至关重要。本文介绍了Skip-Layer Attention(SLA)来增强Transformer模型,实现非相邻层之间的直接注意力。这种方法改善了模型捕获高级抽象特征和低级细节之间依赖关系的能力。通过促进这些不同特征级别之间的直接注意力,我们的方法克服了当前Transformer的局限,后者通常依赖于次优的层内注意力。我们的实现通过使给定层中的查询与当前层和前一层的键和值进行交互,扩展了Transformer的功能,从而增强了多头注意力的多样性,而不增加额外的计算负担。大量实验证明,我们增强的Transformer模型在语言建模任务中实现了卓越的性能,突显了我们的跳层注意力机制的有效性。

论文链接: https://arxiv.org/pdf/2406.11274

cs.CL: 通过知识检测对大语言模型进行自我训练

原标题: Self-training Large Language Models through Knowledge Detection

作者: Wei Jie Yeo, Teddy Ferdinan, Przemyslaw Kazienko, Ranjan Satapathy, Erik Cambria

机构: 南洋理工大学 弗罗茨瓦夫科技大学 高性能计算研究所(IHPC),科学技术研究局(A∗STAR)

摘要: 大语言模型(LLMs)通常需要大量标记数据集和训练计算才能在下游任务中取得令人印象深刻的性能。本文探讨了一种自我训练范式,其中大语言模型自主筛选其自己的标签,并通过无参考一致性方法有选择性地对识别出的未知数据样本进行训练。实证评估表明,在多个主题中,减少生成中的幻觉方面取得了显著改进。此外,有选择性的训练框架减轻了在分布外基准测试中的灾难性遗忘,解决了训练LLMs中的一个关键限制。我们的研究结果表明,这种方法可以大幅减少对大型标记数据集的依赖,为更具规模和成本效益的语言模型训练铺平了道路。

论文链接: https://arxiv.org/pdf/2406.11275

cs.CL: 用忠实微调减轻大语言模型的幻觉

原标题: Mitigating Large Language Model Hallucination with Faithful Finetuning

作者: Minda Hu, Bowei He, Yufei Wang, Liangyou Li, Chen Ma, Irwin King

机构: 香港中文大学 计算机科学与工程系 香港城市大学 计算机科学系 华为诺亚方舟实验室

摘要: 大语言模型(LLMs)已经在各种自然语言处理任务中展现出了卓越的性能。然而,它们很容易生成流畅但不真实的回复,即所谓的“幻觉”。幻觉可能导致误信息的传播,并在关键应用中造成伤害。减轻幻觉是具有挑战性的,因为它们源自诸如嘈杂数据、模型过度自信、缺乏知识以及生成过程本身等因素。最近的努力尝试通过表示编辑和解码算法来解决这个问题,减少幻觉而无需进行重大结构更改或重新训练。然而,这些方法要么隐式地在潜在空间中编辑LLMs的行为,要么抑制在解码过程中输出不忠实结果的倾向,而不是明确地对幻觉进行建模。在这项工作中,我们引入了Faithful Finetuning(F2),这是一种新颖的方法,通过精心设计的损失函数在微调过程中明确地对忠实问答过程进行建模。我们在流行的数据集上进行了大量实验,并证明F2相对于普通模型和基线取得了显著的改进。

论文链接: https://arxiv.org/pdf/2406.11267

cs.CL: 罗马的沦陷:理解大语言模型在模型编辑中的崩溃

原标题: The Fall of ROME: Understanding the Collapse of LLMs in Model Editing

作者: Wanli Yang, Fei Sun, Jiajun Tan, Xinyu Ma, Du Su, Dawei Yin, Huawei Shen

机构: 中国科学院计算技术研究所 百度公司

摘要: 尽管模型编辑方法取得了显著进展,但它们在实际场景中的应用仍然具有挑战性,因为它们经常导致大语言模型(LLMs)崩溃。其中,ROME尤其令人担忧,因为它可能仅通过单个编辑就会破坏LLMs。在本文中,我们研究了这种崩溃的根本原因。通过广泛的分析,我们确定了导致崩溃的两个主要因素:i)在参数更新方程中,对带前缀和不带前缀的键的处理不一致可能导致非常小的分母,从而导致过度大的参数更新;ii)崩溃案例的主体通常是第一个标记,其不带前缀键的分布与自回归Transformer中的带前缀键分布显著不同,导致上述问题得以实现。为了验证我们的分析,我们提出了一种简单而有效的方法:在编辑阶段统一使用带前缀的键,并在测试阶段添加前缀。实验结果表明,所提出的解决方案可以防止模型崩溃,同时保持编辑的有效性。

论文链接: https://arxiv.org/pdf/2406.11263

cs.CL: 通过大语言模型进行对抗风格增强,用于强大的假新闻检测

原标题: Adversarial Style Augmentation via Large Language Model for Robust Fake News Detection

作者: Sungwon Park, Sungwon Han, Meeyoung Cha

机构: 韩国科学技术院(KAIST) 德国博鲁姆安全与隐私研究所(MPI)

摘要: 虚假新闻的传播对个人产生负面影响,并被视为需要解决的重大社会挑战。已经确定了许多用于检测虚假新闻的算法和见解性特征。然而,随着最近的大语言模型及其先进的生成能力,许多可检测的特征(例如,风格转换攻击)可以被改变,使其更具挑战性,难以与真实新闻区分开来。本研究提出了对抗风格增强(AdStyle)的方法,用于训练一个虚假新闻检测器,使其对各种风格转换攻击保持稳健。我们模型的关键机制是谨慎使用大语言模型自动生成多样且连贯的一系列风格转换攻击提示。这改善了特别难以处理的提示的生成,对检测器的处理更具挑战性。实验证明,我们的增强策略在虚假新闻基准数据集上的测试中提高了稳健性和检测性能。

论文链接: https://arxiv.org/pdf/2406.11260

cs.CL: 增强生物医学知识检索增强生成与自我奖励树搜索和近端策略优化

原标题: Enhancing Biomedical Knowledge Retrieval-Augmented Generation with Self-Rewarding Tree Search and Proximal Policy Optimization

作者: Minda Hu, Licheng Zong, Hongru Wang, Jingyan Zhou, Jingjing Li, Yichen Gao, Kam-Fai Wong, Yu Li, Irwin King

机构: 香港中文大学 中国工程师学会 系统工程与工程管理系

摘要: 大语言模型(LLMs)随着检索增强生成(RAG)技术的进步,在生物医学领域展现出了巨大潜力。然而,现有的检索增强方法在处理多样化的查询和文档方面面临挑战,特别是对于医学知识查询,导致性能不佳。为了解决这些局限性,我们提出了一种基于蒙特卡洛树搜索(MCTS)和自我奖励范式的新型即插即用LLM检索方法,称为自我奖励树搜索(SeRTS)。通过将LLMs的推理能力与树搜索的有效性相结合,SeRTS提升了检索增强生成的零样本性能,能够检索到高质量且信息丰富的结果。我们通过使用SeRTS收集的轨迹作为反馈,通过近端策略优化(PPO)目标对LLMs进行微调,进一步提高了检索性能。在使用BioASQ-QA数据集和GPT-3.5-Turbo以及LLama2-7b进行对照实验后,我们的方法显著改善了BM25检索器的性能,并在效率和可扩展性上超越了自我反思的强基线。此外,SeRTS为PPO训练生成了更高质量的反馈,优于自我反思。我们提出的方法有效地使LLMs适应了文档检索任务,增强了它们在医学知识查询背景下为RAG检索高度相关文档的能力。这项工作在利用LLMs进行准确和全面的生物医学问题回答方面迈出了重要一步。

论文链接: https://arxiv.org/pdf/2406.11258

cs.CL: 机器能够与人类产生共鸣吗?评估大语言模型对情感和共情理解的能力

原标题: Can Machines Resonate with Humans? Evaluating the Emotional and Empathic Comprehension of LMs

作者: Muhammad Arslan Manzoor, Yuxia Wang, Minghan Wang, Preslav Nakov

机构: MBZUAI 阿布扎比阿联酋 学校 University of Monash 墨尔本 澳大利亚

摘要: 共情在促进亲社会行为中发挥着关键作用,通常是通过叙述个人经历来触发的。然而,利用自然语言处理方法对共情进行建模仍然具有挑战性,因为它与人类互动动态深度相互关联。先前的方法涉及在人工注释的共情数据集上对语言模型(LMs)进行微调,但取得了有限的成功。在我们追求改进语言模型对共情的理解时,我们提出了几种策略,包括使用带有屏蔽LMs的对比学习和对大语言模型(LLMs)进行监督微调。虽然这些方法相对于先前的方法显示出改进,但总体结果仍然令人不满意。为了更好地理解这一趋势,我们进行了分析,发现注释者之间存在较低的一致性。这种缺乏共识阻碍了训练,并突显了任务的主观性。我们还探讨了注释对文化的影响。为了研究这一点,我们精心收集了乌尔都语的故事对,并发现注释者对共情的解释主观性似乎与文化背景无关。我们对语言模型对共情理解的系统探索的见解表明,在任务制定和建模方面还有相当大的探索空间。

论文链接: https://arxiv.org/pdf/2406.11250

cs.CL: 动态数据混合最大化专家混合模型的指导调整

原标题: Dynamic Data Mixing Maximizes Instruction Tuning for Mixture-of-Experts

作者: Tong Zhu, Daize Dong, Xiaoye Qu, Jiacheng Ruan, Wenliang Chen, Yu Cheng

机构: 苏州大学 上海人工智能实验室 上海交通大学 香港中文大学

摘要: 混合专家(MoE)模型在指导调整方面表现出了非凡的能力,特别是当任务数量增加时。然而,先前的方法简单地合并所有训练任务(例如创意写作、编码和数学),并应用固定的采样权重,而不考虑不同任务在模型训练状态变化时的重要性。这种方式下,最有帮助的数据无法被有效区分,导致模型性能不佳。为了减少数据集的潜在冗余,我们首次尝试并提出了一种新颖的动态数据混合方法,用于MoE指导调整。具体来说,受到MoE的标记路由偏好的启发,我们构建了数据集级表示,然后捕捉数据集之间的微妙差异。最后,我们提出通过它们的相互冗余动态调整数据集的采样权重,从而在有限的训练预算下最大化全局性能。在两个MoE模型上的实验结果表明了我们方法在下游知识和推理任务以及开放式查询上的有效性。代码和模型可在此 https URL 找到。

论文链接: https://arxiv.org/pdf/2406.11256

Github: https://github.com/Spico197/MoE-SFT

cs.CL: FamiCom:通过任务无关性能估计进一步揭示语言模型提示的神秘。

原标题: FamiCom: Further Demystifying Prompts for Language Models with Task-Agnostic Performance Estimation

作者: Bangzheng Li, Ben Zhou, Xingyu Fu, Fei Wang, Dan Roth, Muhao Chen

机构: 加州大学戴维斯分校 宾夕法尼亚大学 南加州大学

摘要: 语言模型展现了令人印象深刻的上下文学习能力,使它们能够从输入提示中受益,并在下游任务中表现更好。现有研究调查了这一观察结果背后的机制,并提出了能够更好地估计终端任务性能的无标签提示度量。一种流行的方法是使用困惑度来衡量模型对提示的熟悉程度。虽然在域内任务上表现出持续改进,但我们发现,困惑度等熟悉度度量无法准确估计在复杂情况下(如任务或领域转移场景)的性能。在这项工作中,我们提出了一种修订后的度量称为 FamiCom,提供了一种更全面的任务无关性能估计方法。具体而言,FamiCom将熟悉度与“复杂性”结合起来——即终端任务的固有难度,这是当前度量中缺失的一个重要因素。实验证明,FamiCom与终端任务性能强相关,产生了0.85的Spearman相关系数,而仅有熟悉度的相关系数为0.43。我们进一步将FamiCom应用于自动提示和演示选择,并在准确率上超过现有方法和基线超过7.0%。

论文链接: https://arxiv.org/pdf/2406.11243

cs.CL: 使用同形异义字规避 AI 生成内容检测器

原标题: Evading AI-Generated Content Detectors using Homoglyphs

作者: Aldan Creo, Shushanta Pudasaini

机构: 都柏林理工大学 Technological University Dublin

摘要: 生成越来越接近人类的文本是由大语言模型(LLMs)的出现所实现的。由于检测人工智能生成内容在打击虚假信息和学术作弊等问题上具有重要意义,因此已经进行了大量研究来开发可靠的LLM检测器。虽然这些检测器在测试数据上展示了有希望的结果,但最近的研究表明它们可以通过采用不同的技术来规避。本文介绍了基于同形异体( a → α a \rightarrow {\alpha} aα)攻击,这些攻击可以用来规避现有的LLM检测器。攻击的有效性通过分析同形异体如何改变文本的标记化及其标记对数似然来进行说明。对包括双筒望远镜(Binoculars)、DetectGPT、OpenAI的检测器以及水印技术在内的最新LLM检测器在五个不同数据集上进行了全面评估。提出的方法演示了对所有研究配置的检测器和数据集的显著效率降低,甚至降至0.5(随机猜测)的准确度。结果表明,基于同形异体的攻击可以有效规避现有的LLM检测器,并讨论了这些发现的影响以及可能的防御措施。

论文链接: https://arxiv.org/pdf/2406.11239

cs.CL: 用 GPT-4 构建另一个西班牙语词典

原标题: Building another Spanish dictionary, this time with GPT-4

作者: Miguel Ortega-Martín, Óscar García-Sierra, Alfonso Ardoiz, Juan Carlos Armenteros, Ignacio Garrido, Jorge Álvarez, Camilo Torrón, Iñigo Galdeano, Ignacio Arranz, Oleg Vorontsov, Adrián Alonso

机构: Universidad Complutense de Madrid Universidad Rey Juan Carlos

摘要: 我们呈现了“西班牙建构事实自由词典 2.0”(Spanish-BFF-2),作为人工智能生成的西班牙语词典的第二个版本。此前,我们使用 GPT-3 开发了这个独特的免费词典的首个版本。在这项研究中,我们旨在通过使用 GPT-4-turbo 来改进词典。此外,我们探讨了对初始版本的改进,并比较了两个模型的性能。

论文链接: https://arxiv.org/pdf/2406.11218

cs.CL: MiniConGTS:一种接近终极的极简对比网格标记方案,用于提取方面情感三元组。

原标题: MiniConGTS: A Near Ultimate Minimalist Contrastive Grid Tagging Scheme for Aspect Sentiment Triplet Extraction

作者: Qiao Sun, Liujia Yang, Minghao Ma, Nanyang Ye, Qinying Gu

机构: 复旦大学 上海人工智能实验室 上海交通大学

摘要: Aspect Sentiment Triplet Extraction (ASTE)旨在在给定语料中共同提取情感三元组。现有的预训练微调范式中的方法往往要么精心设计复杂的标记方案和分类头,要么整合外部语义增强以提高性能。在本研究中,我们首次重新评估了标记方案中的冗余性和预训练表示中的内部增强。我们提出了一种方法,通过整合极简的标记方案和一种新颖的标记级对比学习策略来改进和利用预训练表示。所提出的方法表现出与最先进技术相当或更优的性能,同时具有更紧凑的设计和较少的计算开销。此外,我们是首次正式评估 GPT-4 在少样本学习和思维链场景中的表现。结果表明,即使在大语言模型时代,预训练微调范式仍然非常有效。

论文链接: https://arxiv.org/pdf/2406.11234

cs.CL: ComperDial:常识人设对话数据集和基准测试

原标题: ComperDial: Commonsense Persona-grounded Dialogue Dataset and Benchmark

作者: Hiromi Wakaki, Yuki Mitsufuji, Yoshinori Maeda, Yukiko Nishimura, Silin Gao, Mengjie Zhao, Keiichi Yamada, Antoine Bosselut

机构: 索尼集团公司 瑞士洛桑联邦理工学院

摘要: 我们提出了一个新的基准测试集ComperDial,它有助于训练和评估开放领域对话系统的评估指标。ComperDial包括来自99个对话智能体提交的Commonsense Persona-grounded Dialogue (CPD)挑战中收集的1,485个对话中的10,395个对话轮的人工评分响应。因此,对于任何对话,我们的基准测试集包括多种不同特征的多个响应,以确保更稳健地评估学习对话指标。除了单轮响应分数,ComperDial还包含对话级别的人工注释分数,可以对对话中的多轮模型响应进行联合评估。最后,基于ComperDial,我们设计了一个新的自动评估指标,用于衡量模型生成的对话与人类对话的一般相似性。我们的实验结果表明,我们的新指标CPDScore与人类判断的相关性比现有指标更高。我们将ComperDial和CPDScore都发布给社区,以加速开放领域对话系统自动评估指标的发展。

论文链接: https://arxiv.org/pdf/2406.11228

cs.CL: 哪些类型的 Token 受益于远程文本?对长上下文语言建模的分析

原标题: What Kinds of Tokens Benefit from Distant Text? An Analysis on Long Context Language Modeling

作者: Yutong Hu, Quzhe Huang, Kangcheng Luo, Yansong Feng

机构: 北京大学王选计算机技术研究所 中国 北京大学智能科学技术学院 北京大学电子工程与计算机科学学院

摘要: 随着大语言模型可以处理的上下文长度不断增加,这些模型展示了利用远距信息进行诸如语言建模等任务的增强能力。这种能力与人类阅读和写作习惯形成对比,人类在不是预示的情况下,很少记住和使用特别遥远的信息。在本文中,我们旨在探讨哪种类型的词在语言模型中受益最多于长上下文。通过分析随着上下文长度增加而发生的标记概率变化,我们发现内容词(例如名词、形容词)和词的初始标记受益最多。上下文中的频繁模式(N-grams)也显著影响预测。此外,模型的先验知识在影响预测方面发挥关键作用,特别是对于罕见的标记。我们还观察到,随着上下文变得更长,语言模型变得更加自信,导致更尖锐的概率分布。这种过度自信可能有助于增加具有远程上下文信息的标记的概率。我们希望我们的分析将有助于社区更好地理解长文本语言建模,并有助于设计更可靠的长上下文模型。

论文链接: https://arxiv.org/pdf/2406.11238

cs.CL: 全球数据约束:大语言模型中的道德和有效性挑战

原标题: Global Data Constraints: Ethical and Effectiveness Challenges in Large Language Model

作者: Jin Yang, Zhiqiang Wang, Yanbin Lin, Zunduo Zhao

机构: 雪城大学 佛罗里达大西洋大学 纽约大学

摘要: 大语言模型(LLMs)的功效和道德完整性深受其训练数据的多样性和质量的影响。然而,全球范围内的数据获取环境存在着重大挑战,特别是在数据隐私法律严格或开放信息有限的地区。本文探讨了获取大语言模型高质量训练数据所面临的多方面挑战,重点关注各种语言环境中数据稀缺、偏见和低质量内容等问题。我们强调依赖公开可用但可能存在偏见或不相关数据来源的技术和道德影响,可能导致大语言模型生成偏见或幻觉内容。通过使用GPT-4和GPT-4o进行一系列评估,我们展示了这些数据约束如何对模型性能和道德对齐产生不利影响。我们提出并验证了几种旨在增强数据质量和模型鲁棒性的缓解策略,包括先进的数据过滤技术和道德数据收集实践。我们的研究结果强调了在开发考虑数据约束的大语言模型时,需要积极采取的方法,既考虑效果又考虑道德影响,旨在促进更可靠和普遍适用的人工智能系统的创建。

论文链接: https://arxiv.org/pdf/2406.11214

cs.CL: 微调还是微失败?揭秘大语言模型的性能神话

原标题: Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models

作者: Scott Barnett, Zac Brannelly, Stefanus Kurniawan, Sheng Wong

机构: 迪肯大学 应用人工智能研究所

摘要: 大语言模型(LLMs)具有独特的能力,能够理解并生成类似人类的文本内容。在经过精细调整后,这些模型在特定领域的查询上表现出了增强的性能。OpenAI强调了精细调整的过程,指出:“要对模型进行精细调整,您需要提供至少10个示例。我们通常看到通过对50到100个训练示例进行精细调整会明显改善,但正确的数量会根据具体用例大大变化。”本研究将这一概念扩展到了将LLMs集成到检索增强生成(RAG)管道中,旨在通过利用外部语料库数据进行信息检索来提高准确性和相关性。然而,在复杂的查询场景中,RAG承诺提供最佳响应的承诺往往难以实现。本研究旨在具体考察精细调整LLMs对其提取和整合上下文数据的能力,以增强RAG系统在多个领域的性能。我们通过比较多个领域数据集上精细调整模型的准确性和完整性与基准性能,评估了精细调整对LLMs的数据提取和上下文理解能力的影响。我们的研究结果表明,与基准模型相比,精细调整导致性能下降,与OpenAI所建议的独立LLMs应用中观察到的改进相反。本研究强调了对领域特定任务的精细调整模型进行深入调查和验证的必要性。

论文链接: https://arxiv.org/pdf/2406.11201

cs.CL: MMNeuron:在多模态大语言模型中发现神经元级别的领域特定解释

原标题: MMNeuron: Discovering Neuron-Level Domain-Specific Interpretation in Multimodal Large Language Model

作者: Jiahao Huo, Yibo Yan, Boren Hu, Yutao Yue, Xuming Hu

机构: 香港科技大学(广州) 同济大学

摘要: 将视觉特征投影到词嵌入空间已成为多模态大语言模型(MLLMs)采用的重要融合策略。然而,其内部机制尚未被探索。受多语言研究启发,我们在多模态大语言模型中确定了领域特定的神经元。具体来说,我们研究了多模态大语言模型处理来自不同领域特征的领域特定神经元的分布和机制。此外,我们提出了一个关于MLLMs中语言模型模块处理投影图像特征的三阶段框架,并使用对数透镜验证了这一假设。大量实验证明,尽管当前的MLLMs表现出视觉问答(VQA)能力,但它们可能没有充分利用领域特定信息。适当操纵领域特定神经元最多会导致准确率变化10%,为未来跨领域、全面的MLLMs的发展提供了启示。我们的代码将在论文通知后发布。

论文链接: https://arxiv.org/pdf/2406.11193

cs.CL: 超越边界:跨数据集和语言学习开放式命名实体识别的通用实体分类体系

原标题: Beyond Boundaries: Learning a Universal Entity Taxonomy across Datasets and Languages for Open Named Entity Recognition

作者: Yuming Yang, Wantong Zhao, Caishuang Huang, Junjie Ye, Xiao Wang, Huiyuan Zheng, Yang Nan, Yuran Wang, Xueying Xu, Kaixin Huang, Yunke Zhang, Tao Gui, Qi Zhang, Xuanjing Huang

机构: 复旦大学 华为荣耀设备有限公司 现代语言与语言学研究所

摘要: 开放式命名实体识别(NER)涉及从任意领域识别任意类型的实体,对于大型语言模型(LLMs)来说仍然具有挑战性。最近的研究表明,对大量的NER数据进行微调可以提升它们的性能。然而,直接在现有数据集上进行训练面临着实体定义不一致和数据冗余的问题,限制了LLMs的数据集特定学习,并阻碍了跨领域的泛化能力。为了解决这个问题,我们提出了B2NERD,这是一个统一而高效的开放式NER数据集,通过两步方法从54个现有的英文或中文数据集中进行规范化。首先,我们检测跨数据集的不一致实体定义,并通过可区分的标签名称来澄清它们,构建了一个包含400多种实体类型的通用分类系统。其次,我们使用数据修剪策略来解决冗余问题,选择更少但具有更大类别和语义多样性的样本。全面评估表明,B2NERD显著提高了LLMs在开放式NER上的泛化能力。我们基于B2NERD训练的B2NER模型,在15个数据集和6种语言的3个跨领域基准测试中,比GPT-4高出6.8-12.0个F1分数,并超过了先前的方法。

论文链接: https://arxiv.org/pdf/2406.11192

cs.CL: TIFG: 使用大语言模型进行文本信息驱动的特征生成

原标题: TIFG: Text-Informed Feature Generation with Large Language Models

作者: Xinhao Zhang, Jinghan Zhang, Fengran Mo, Yuzhong Chen, Kunpeng Liu

机构: 波特兰州立大学 蒙特利尔大学 Visa研究

摘要: 数据的文本信息对于数据挖掘和特征工程至关重要。然而,现有方法侧重于学习数据结构,忽视了文本信息以及数据。因此,它们浪费了这一宝贵资源,并错过了文本中嵌入的更深层次的数据关系。在本文中,我们介绍了基于文本信息的特征生成(TIFG),这是一种新颖的基于大语言模型的文本信息特征生成框架。TIFG利用文本信息通过检索增强生成(RAG)技术在外部知识中生成可能相关的特征。在这种方法中,TIFG可以生成新的可解释特征,丰富特征空间,并进一步挖掘特征关系。我们设计TIFG为一个自动化框架,不断优化特征生成过程,适应新的数据输入,并在迭代中提高下游任务的性能。在各种下游任务的广泛实验中,展示了我们的方法能够生成高质量和有意义的特征,并且明显优于现有方法。

论文链接: https://arxiv.org/pdf/2406.11177

cs.CL: 通过自我参考的AI反馈,用一个通用原则来对齐大型语言模型

原标题: Aligning Large Language Models from Self-Reference AI Feedback with one General Principle

作者: Rong Bao, Rui Zheng, Shihan Dou, Xiao Wang, Enyu Zhou, Bo Wang, Qi Zhang, Liang Ding, Dacheng Tao

机构: 复旦大学 上海上海人工智能实验室 悉尼大学 南洋理工大学

摘要: 在对齐大型语言模型(LLMs)时,利用现有先进人工智能的反馈而不是人类的反馈是一种重要的方法,可以扩展监督信号。然而,对于人工智能来理解人类意图和社会价值,并基于这些提供准确的偏好反馈是非常具有挑战性的。当前的人工智能反馈方法依赖于强大的LLMs,精心设计的特定原则来描述人类意图,并且很容易受到位置偏见的影响。为了解决这些问题,我们提出了一种基于自我参考的人工智能反馈框架,使得13B Llama2-Chat能够根据简单和通用的原则(如“最有利于人类”)提供高质量的反馈。具体而言,我们允许人工智能首先回应用户的指令,然后根据自己的回应作为参考生成对其他答案的批评,最后根据这些批评确定哪个答案更符合人类的偏好。此外,我们使用自一致性方法进一步减少位置偏见的影响,并采用语义困惑度来计算不同答案之间的偏好强度差异。实验结果表明,我们的方法使得13B和70B Llama2-Chat注释者能够提供高质量的偏好反馈,并且基于这些偏好数据训练的策略模型通过强化学习在基准数据集上取得了显著优势。

论文链接: https://arxiv.org/pdf/2406.11190

cs.CL: 关于人类偏好学习大语言模型的调查

原标题: A Survey on Human Preference Learning for Large Language Models

作者: Ruili Jiang, Kehai Chen, Xuefeng Bai, Zhixuan He, Juntao Li, Muyun Yang, Tiejun Zhao, Liqiang Nie, Min Zhang

机构:

摘要: 最近大规模通用语言模型(LLMs)的多功能激增在很大程度上取决于通过偏好学习将日益强大的基础模型与人类意图对齐,从而增强LLMs在各种情境中的出色适用性和有效性。尽管进行了许多相关研究,但对人类偏好如何引入LLMs的视角仍然有限,这可能阻碍了对人类偏好与LLMs之间关系以及其局限性的更深入理解。在这项调查中,我们从以偏好为中心的角度回顾了探索LLMs人类偏好学习的进展,涵盖了偏好反馈的来源和格式、偏好信号的建模和使用,以及对齐LLMs的评估。我们首先根据数据来源和格式对人类反馈进行分类。然后总结了人类偏好建模的技术,并比较了不同模型流派的优缺点。此外,我们介绍了根据利用人类偏好信号的目标排序的各种偏好使用方法。最后,我们总结了一些流行的评估LLMs与人类意图对齐的方法,并讨论了我们对LLMs人类意图对齐的展望。

论文链接: https://arxiv.org/pdf/2406.11191

cs.CL: BSRBF-KAN:Kolmogorov-Arnold 网络中 B-样条和径向基函数的组合

原标题: BSRBF-KAN: A combination of B-splines and Radial Basic Functions in Kolmogorov-Arnold Networks

作者: Hoang-Thang Ta

机构: 达拉特大学

摘要: 在本文中,我们介绍了BSRBF-KAN,这是一个结合了B样条和径向基函数(RBFs)的 Kolmogorov Arnold 网络(KAN),用于拟合数据训练中的输入向量。我们对BSRBF-KAN、MLP和其他流行的KAN进行了实验,包括EfficientKAN、FastKAN、FasterKAN和GottliebKAN,这些实验都是在MNIST数据集上进行的。BSRBF-KAN在5次训练中表现稳定,平均准确率达到了97.55%,并且获得了比其他网络更好的收敛性。我们期望BSRBF-KAN可以开启许多数学函数组合来设计KAN。我们的代码库可以在以下公开链接找到:this https URL。

论文链接: https://arxiv.org/pdf/2406.11173

Github: https://github.com/hoangthangta/BSRBF-KAN

cs.CL: 观察每一步!通过迭代步骤级过程细化学习的LLM智能体

原标题: Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement

作者: Weimin Xiong, Yifan Song, Xiutian Zhao, Wenhao Wu, Xun Wang, Ke Wang, Cheng Li, Wei Peng, Sujian Li

机构: 北京大学 华为技术

摘要: 大语言模型智能体在各种复杂的交互任务中表现出了非凡的性能。最近的方法利用专家轨迹调整来增强智能体的性能,但它们主要集中在结果奖励上,这可能会因为缺乏过程监督信号而导致错误或次优行为。在本文中,我们介绍了迭代式步骤级过程细化(IPR)框架,该框架提供了详细的逐步指导以增强智能体的训练。具体而言,我们采用蒙特卡洛方法来估计步骤级奖励。在每次迭代中,智能体沿着专家轨迹进行探索并生成新的动作。然后,利用步骤级奖励对这些动作与专家轨迹的相应步骤进行评估。这种比较有助于识别差异,产生对比动作对,这些对比动作对作为智能体的训练数据。我们在三个复杂的智能体任务上的实验表明,我们的框架优于多种强基线。此外,我们的分析结果突出了IPR在增强动作效率方面的有效性以及其适用于各种模型的可行性。

论文链接: https://arxiv.org/pdf/2406.11176

cs.CL: 通过多样化的法律因素增强刑事案件匹配

原标题: Enhancing Criminal Case Matching through Diverse Legal Factors

作者: Jie Zhao, Ziyu Guan, Wei Zhao, Yue Jiang

机构: 西安电子科技大学

摘要: 刑事案件匹配旨在确定不同刑事案件之间的相关性。传统方法仅基于实例级语义特征预测相关性,并忽略了与不同法院判决相关的多样化法律因素(LFs)。因此,全面地表示刑事案件对于这些方法仍然是一个挑战。此外,提取和利用这些LFs进行刑事案件匹配面临两个挑战:(1)LFs的手动注释严重依赖专业的法律知识;(2)LFs之间的重叠可能潜在地损害模型的性能。在本文中,我们提出了一个名为Diverse Legal Factor-enhanced Criminal Case Matching(DLF-CCM)的两阶段框架。首先,DLF-CCM采用多任务学习框架在大规模法律判决预测数据集上预训练LF提取网络。在第二阶段,DLF-CCM引入了一个LF去冗余模块来学习共享LF和独占LF。此外,引入了一种熵加权融合策略来动态融合所有LF生成的多个相关性。实验结果验证了DLF-CCM的有效性,并显示其相对竞争基线的显著改进。代码:this https URL。

论文链接: https://arxiv.org/pdf/2406.11172

Github: https://github.com/jiezhao6/DLF-CCM

cs.CL: LLM在低资源情境下的关系抽取能力如何?全面评估

原标题: How Good are LLMs at Relation Extraction under Low-Resource Scenario? Comprehensive Evaluation

作者: Dawulie Jinensibieke, Mieradilijiang Maimaiti, Wentao Xiao, Yuanhang Zheng, Xiangbo Wang

机构: 中国科学院新疆物理化学技术研究所 新疆大学 清华大学

摘要: 关系抽取(RE)作为将非结构化文本转化为结构化信息的关键技术,尤其是在知识图谱开发框架内。其重要性在于其在各种下游任务中的基本作用。除了基于神经网络和预训练语言模型的传统RE方法外,大语言模型(LLMs)也被用于RE研究领域。然而,在低资源语言(LRLs)上,由于数据稀缺问题,传统的RE方法和基于LLM的方法在RE上表现不佳。因此,本文在中亚、东南亚和中东三个地区的10种低资源语言中构建了低资源关系抽取数据集。这些语料是通过使用有效的多语言机器翻译将原始公开可用的英文RE数据集(NYT10、FewRel和CrossRE)进行翻译构建的。然后,我们使用语言困惑度(PPL)来过滤翻译数据集中的低质量数据。最后,我们进行了实证研究,并验证了几种开源LLM在这些生成的LRL RE数据集上的性能。

论文链接: https://arxiv.org/pdf/2406.11162

cs.CL: GoldCoin: 通过上下文完整性理论将大语言模型与隐私法律联系起来

原标题: GoldCoin: Grounding Large Language Models in Privacy Laws via Contextual Integrity Theory

作者: Wei Fan, Haoran Li, Zheye Deng, Weiqi Wang, Yangqiu Song

机构: 香港科技大学

摘要: 隐私问题在实体之间不当传输信息时显著出现。现有研究主要通过探索各种隐私攻击、防御和评估来研究隐私,而忽视了隐私并非孤立的、无上下文限制的概念,而是与复杂的社会背景交织在一起,这使得对潜在隐私侵犯的识别和分析变得复杂。大语言模型(LLMs)的出现为纳入隐私法中概述的微妙情景提供了前所未有的机会,以解决这些复杂的隐私问题。然而,开源相关案例研究的稀缺限制了LLMs与特定法律法规的有效对齐。为解决这一挑战,我们引入了一种新颖的框架GoldCoin,旨在有效地将LLMs与隐私法对齐,以便对隐私侵犯进行司法评估。我们的框架利用了上下文完整性理论作为桥梁,创建了许多基于相关隐私法规(例如HIPAA)的合成情景,以帮助LLMs理解现实世界中识别隐私风险的复杂背景。广泛的实验结果表明,GoldCoin显著增强了LLMs在识别真实法庭案例中的隐私风险方面的能力,在不同的司法任务上超越了基准线。

论文链接: https://arxiv.org/pdf/2406.11149

cs.CL: 突破界限:研究模型编辑对跨语言性能的影响

原标题: Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance

作者: Somnath Banerjee, Avik Halder, Rajarshi Mandal, Sayan Layek, Ian Soboroff, Rima Hazra, Animesh Mukherjee

机构: 印度理工学院哈拉格普分校 美国国家标准与技术研究所 新加坡科技与设计大学

摘要: 预训练语言模型(PLMs)如BERT和GPT的整合已经彻底改变了自然语言处理(NLP),特别是对于英语,但也造成了语言上的不平衡。本文通过在多语言环境中检验多种知识编辑技术,战略性地确定了对语言平等的需求。我们评估了Mistral、TowerInstruct、OpenHathi、Tamil-Llama和Kan-Llama等模型在包括英语、德语、法语、意大利语、西班牙语、印地语、泰米尔语和卡纳达语在内的多种语言中的表现。我们的研究发现了在跨语言一致性方面普通模型和合并模型之间的显著差异。我们采用“每种语言为自己”(ELFI)和“每种语言为他人”(ELFO)等策略来对这些模型进行压力测试。我们的发现表明,大语言模型有潜力克服语言障碍,为实现人工智能技术中的语言包容性奠定了基础。

论文链接: https://arxiv.org/pdf/2406.11139

cs.CL: 大语言模型是税收分类的良好替代品吗?

原标题: Are Large Language Models a Good Replacement of Taxonomies?

作者: Yushi Sun, Hao Xin, Kai Sun, Yifan Ethan Xu, Xiao Yang, Xin Luna Dong, Nan Tang, Lei Chen

机构: 香港科技大学 Meta Reality Labs

摘要: 大语言模型(LLMs)展示了内化知识和回答自然语言问题的令人印象深刻的能力。尽管先前的研究验证了LLMs在一般知识上表现良好,但在长尾微妙知识上表现不佳,社区仍然对传统知识图是否应该被LLMs取代持怀疑态度。在本文中,我们询问知识图的模式(即分类法)是否被LLMs所淘汰。直觉上,LLMs应该在常见的分类法和人们常见的分类法级别上表现良好。不幸的是,目前缺乏一个全面的基准来评估LLMs在从常见到专业领域的广泛范围分类法上的表现,以及从根到叶的不同级别,以便我们能够得出自信的结论。为了缩小研究差距,我们构建了一个名为TaxoGlimpse的新型分类法层次结构发现基准,以评估LLMs在分类法上的表现。TaxoGlimpse涵盖了从常见到专业领域的十个代表性分类法,并对该分类法中不同级别的实体进行了深入的实验,从根到叶。我们对十八种最先进的LLMs在三种提示设置下的全面实验验证了LLMs仍然无法很好地捕捉专业分类法和叶级实体的知识。

论文链接: https://arxiv.org/pdf/2406.11131

cs.CL: 重新提示:为大语言模型智能体进行自动提示工程规划

原标题: RePrompt: Planning by Automatic Prompt Engineering for Large Language Models Agents

作者: Weizhe Chen, Sven Koenig, Bistra Dilkina

机构: 南加州大学

摘要: 在过去的一年中,大语言模型(LLMs)在传统自然语言处理领域之外取得了显著的成功,人们开始探索在代码生成、旅行规划和机器人控制等更普遍和接近应用领域中使用LLMs。将这些具有很大容量和外部工具的LLMs连接起来,人们正在构建所谓的LLM智能体,这些智能体应该能够帮助人们在日常生活中进行各种工作。在所有这些领域中,LLMs的提示已被证明对LLM生成的内容产生了很大影响,从而影响了LLM智能体的性能。因此,自动提示工程已成为许多LLMs的研究人员和用户的重要问题。在本文中,我们提出了一种新颖的方法,\textsc{RePrompt},它通过“梯度下降”来优化LLM智能体提示中的逐步说明,这些说明是基于与LLM智能体交互获得的聊天历史。通过优化提示,LLM将学会如何在特定领域进行规划。我们已经在PDDL生成和旅行规划的实验中表明,我们的方法可以在使用更新后的提示作为初始提示时,通常改善不同推理任务的性能。

论文链接: https://arxiv.org/pdf/2406.11132

cs.CL: 生成式基于方面的情感分析的动态订单模板预测

原标题: Dynamic Order Template Prediction for Generative Aspect-Based Sentiment Analysis

作者: Yonghyun Jun, Hwanhee Lee

机构: 中央大学

摘要: 面向方面的情感分析(ABSA)评估文本中特定方面的情感,从而产生详细的情感元组。先前的ABSA模型通常使用静态模板来预测元组中的所有元素,这些模型经常无法准确捕捉元素之间的依赖关系。多视图提示方法通过使用各种模板预测元组,然后将结果合并来提高ABSA的性能。然而,这种方法存在效率低下和超出分布范围的错误。在本文中,我们提出了一种面向方面的动态顺序模板(DOT)方法,用于ABSA,该方法根据实例级熵动态生成每个实例所需的视图。通过确保生成多样且相关的视图,我们提出的方法在ASQP和ACOS数据集上提高了F1分数,同时显著减少了推断时间。

论文链接: https://arxiv.org/pdf/2406.11130

cs.CL: 文本嫁接:文本分类中针对少数类的近分布弱监督

原标题: Text Grafting: Near-Distribution Weak Supervision for Minority Classes in Text Classification

作者: Letian Peng, Yi Gu, Chengyu Dong, Zihan Wang, Jingbo Shang

机构: 加州大学圣地亚哥分校

摘要: 对于极度弱监督的文本分类,先驱性研究通过从原始语料库中挖掘与类名相似的文本来生成伪标签,这可能导致少数类别的样本非常有限甚至没有样本。最近的研究开始通过提示LLM(大语言模型)使用类名或定义来生成相关文本;然而,存在LLM无法生成符合分布(即与文本分类器将应用的语料库相似)的数据的高风险,导致分类器无法泛化。在本文中,我们结合了这两种方法的优势,并提出通过一种新颖的框架“文本嫁接”来弥合差距,旨在为少数类别获得清洁且接近分布的弱监督。具体而言,我们首先使用基于LLM的logits从原始语料库中挖掘出有潜力用于合成目标少数类别的掩码模板。然后,这些模板由最先进的LLM填充,以合成落入少数类别的接近分布的文本。文本嫁接在少数类别上显示出比直接挖掘或合成的显著改进。我们还使用分析和案例研究来理解文本嫁接的特性。

论文链接: https://arxiv.org/pdf/2406.11115

cs.CL: 探索个性化语言模型中的安全性和效用的权衡

原标题: Exploring Safety-Utility Trade-Offs in Personalized Language Models

作者: Anvesh Rao Vijjini, Somnath Basu Roy Chowdhury, Snigdha Chaturvedi

机构: 北卡罗来纳大学教堂山UNC Chapel Hill

摘要: 随着大语言模型(LLMs)越来越多地整合到日常应用中,确保它们在不同用户群体中公平运行至关重要。在这项工作中,我们展示了LLMs存在个性化偏见,当它们被个性化到用户的身份时,其性能会受到影响。我们通过评估LLMs在安全性和效用两个方面的表现来量化个性化偏见。我们通过检查LLM对不安全提示的良性响应在有无个性化的情况下来衡量安全性。我们通过评估LLM在各种任务上的表现来衡量效用,包括一般知识、数学能力、编程和推理能力。我们发现,从Llama(Touvron等,2023)和Mistral(Jiang等,2023)等开源模型到基于API的模型如GPT-3.5和GPT-4o(Ouyang等,2022),各种LLMs在安全性和效用的权衡方面在不同用户身份下表现出显著的性能差异。最后,我们讨论了使用偏好调整和基于提示的防御措施来减轻个性化偏见的几种策略。

论文链接: https://arxiv.org/pdf/2406.11107

cs.CL: ChatGPT中的语法表示与语言学家和普通人的比较

原标题: Grammaticality Representation in ChatGPT as Compared to Linguists and Laypeople

作者: Zhuang Qiu, Xufeng Duan, Zhenguang G. Cai

机构: 香港中文大学 智能脑与心理研究所

摘要: 大语言模型(LLMs)在各种语言任务中表现出了非凡的性能。然而,目前尚不清楚LLMs是否已经发展出类似人类的细粒度语法直觉。这项预注册研究(此处链接)是对ChatGPT的语法直觉进行的首次大规模调查,建立在之前一项研究的基础上,该研究收集了普通人对148种语言现象的语法判断,而语言学家认为这些现象是语法的、非语法的或边缘语法的(Sprouse, Schutze, & Almeida, 2013)。我们的主要关注点是比较ChatGPT与普通人和语言学家在对这些语言结构的判断上的表现。在实验1中,ChatGPT根据给定的参考句对句子进行评分。实验2涉及对句子进行7分制的评分,实验3要求ChatGPT从一对句子中选择更符合语法的句子。总体而言,我们的研究结果表明,在ChatGPT和语言学家之间的一致性率在73%到95%之间,整体点估计为89%。在所有任务中,我们还发现了ChatGPT和普通人之间的显著相关性,尽管相关性强度因任务而异。我们将这些结果归因于判断任务的心理测量性质和人类与LLMs之间语言处理风格的差异。

论文链接: https://arxiv.org/pdf/2406.11116

其他链接: https://osf.io/t5nes

cs.CL: 调查大语言模型在仇恨言论检测中的注释者偏见

原标题: Investigating Annotator Bias in Large Language Models for Hate Speech Detection

作者: Amit Das, Zheng Zhang, Fatemeh Jamshidi, Vinija Jain, Aman Chadha, Nilanjana Raychawdhary, Mary Sandage, Lauramarie Pope, Gerry Dozier, Cheryl Seals

机构: 奥本大学 斯坦福大学 亚马逊AI

摘要: 数据标注,即将描述性标签分配给原始数据的实践,在优化机器学习模型性能方面至关重要。然而,这是一个资源密集型的过程,容易受到标注者引入的偏见的影响。先进的大语言模型(LLMs)的出现,比如ChatGPT,为现代化和简化这一复杂程序提供了独特的机会。虽然现有研究广泛评估了LLMs的有效性,作为标注者,本文深入探讨了LLMs(特别是GPT 3.5和GPT 4o)在标注仇恨言论数据时存在的偏见。我们的研究有助于理解LLMs在四个关键类别中的偏见:性别、种族、宗教和残疾。具体针对这些类别中的高度脆弱群体,我们分析了标注者的偏见。此外,我们通过审查标注数据,对导致这些偏见的潜在因素进行了全面的检查。我们引入了我们自定义的仇恨言论检测数据集HateSpeechCorpus来进行这项研究。此外,我们还对ETHOS(Mollas等,2022)数据集进行了相同的实验,以进行比较分析。本文作为一项关键资源,指导研究人员和从业者利用LLMs的潜力进行数据标注,从而促进这一关键领域的进展。HateSpeechCorpus数据集可在此处获取:https://此URL。

论文链接: https://arxiv.org/pdf/2406.11109

Github: https://github.com/AmitDasRup123/HateSpeechCorpus

cs.CL: 从意图到技术:大语言模型文本水印的全面分类和挑战

原标题: From Intentions to Techniques: A Comprehensive Taxonomy and Challenges in Text Watermarking for Large Language Models

作者: Harsh Nishant Lalai, Aashish Anantha Ramakrishnan, Raj Sanjay Shah, Dongwon Lee

机构: 比尔拉理工学院,宾夕法尼亚州立大学,乔治亚理工学院

摘要: 随着大语言模型(LLMs)的快速增长,保护文本内容免受未经授权的使用至关重要。文本水印技术提供了一种重要的解决方案,可以保护LLM生成的文本和纯文本来源。本文通过对研究文献的全面调查,提出了对设计水印技术背后不同视角的统一概述。我们的工作具有两个关键优势,(1)我们根据不同水印技术背后的具体意图、使用的评估数据集、水印添加和去除方法来分析研究,以构建一个连贯的分类体系。 (2)我们突出了文本水印的空白和开放挑战,以促进保护文本作者身份的研究。这种广泛覆盖和详细分析使我们的工作脱颖而出,为语言模型中文本水印技术的不断发展提供了宝贵的见解。

论文链接: https://arxiv.org/pdf/2406.11106

cs.CL: 关于视觉定位自然语言理解的高效语言和视觉助手:阅读和推理中的重要因素

原标题: On Efficient Language and Vision Assistants for Visually-Situated Natural Language Understanding: What Matters in Reading and Reasoning

作者: Geewook Kim, Minjoon Seo

机构: NAVER Cloud AI KAIST AI

摘要: 最近在语言和视觉助手领域取得的进展展示了令人印象深刻的能力,但存在透明度不足的问题,限制了更广泛的研究和可重复性。虽然开源模型能够有效处理一般图像任务,但它们在处理复杂的视觉文本理解时面临高计算需求的挑战。这些任务通常需要增加 token 输入和大型视觉模块来利用高分辨率信息。在模型大小和数据重要性之间取得平衡仍然是一个悬而未决的问题。本研究旨在通过识别关键组件并创建具有受限推理成本的高效模型来重新定义视觉语言模型的设计。通过战略性地制定数据集、优化视觉模块和增强监督技术,我们在保持高性能的同时实现了推理吞吐量的显著提升。跨越从 160M 到 13B 参数的模型的广泛实验为模型优化提供了见解。我们将完全开源我们的代码库、模型和数据集,网址为 https://URL。

论文链接: https://arxiv.org/pdf/2406.11823

Github: https://github.com/naver-ai/elva

cs.CL: DataComp-LM: 寻找语言模型下一代训练集

原标题: DataComp-LM: In search of the next generation of training sets for language models

作者: Jeffrey Li, Alex Fang, Georgios Smyrnis, Maor Ivgi, Matt Jordan, Samir Gadre, Hritik Bansal, Etash Guha, Sedrick Keh, Kushal Arora, Saurabh Garg, Rui Xin, Niklas Muenninghoff, Reinhard Heckel, Jean Mercat, Mayee Chen, Suchin Gururangan, Mitchell Wortsman, Alon Albalak, Yonatan Bitton, Marianna Nezhurina, Amro Abbas, Cheng-Yu Hsieh, Dhruba Ghosh, Josh Gardner, Maciej Kilian, Hanlin Zhang, Rulin Shao, Sarah Pratt, Sunny Sanyal, Gabriel Ilharco, Giannis Daras, Kalyani Marathe, Aaron Gokaslan, Jieyu Zhang, Khyathi Chandu, Thao Nguyen, Igor Vasiljevic, Sham Kakade, Shuran Song, Sujay Sanghavi, Fartash Faghri, Sewoong Oh, Luke Zettlemoyer, Kyle Lo, Alaaeldin El-Nouby, Hadi Pouransari, Alexander Toshev, Stephanie Wang, Dirk Groeneveld, Luca Soldani, Pang Wei Koh, Jenia Jitsev, Thomas Kollar, Alexandros G. Dimakis, Yair Carmon, Achal Dave, Ludwig Schmidt, Vaishaal Shankar

机构: 清华大学 哈佛大学 谷歌 纽约大学 微软 伯克利 加州大学洛杉矶分校 华盛顿大学 谷歌脑 国防科技大学 伊利诺伊大学香槟分校 华盛顿大学圣路易斯分校 华盛顿大学圣路易斯分校 华盛顿大学圣路易斯分校 华盛顿大学圣路易斯分校 华盛顿大学圣路易斯分校 华盛顿大学圣路易斯分校 华盛顿大学圣路易斯分校 华盛顿大学圣路易斯分校 华盛顿大学圣路易斯分校 华盛顿大学圣路易斯分校

摘要: 我们介绍了用于语言模型(DCLM)的DataComp,这是一个用于受控数据集实验的测试平台,旨在改进语言模型。作为DCLM的一部分,我们提供了一个标准化语料库,其中包含从Common Crawl中提取的240T个标记,基于OpenLM框架的有效预训练配方,以及广泛的53个下游评估套件。参与DCLM基准测试的参与者可以尝试不同的数据策略,如去重、过滤和数据混合,模型规模范围从412M到7B参数不等。作为DCLM的基准线,我们进行了大量实验,并发现基于模型的过滤对于组装高质量训练集至关重要。由此产生的数据集DCLM-Baseline使得可以从头开始训练一个7B参数的语言模型,在MMLU上达到64%的5-shot准确率,训练标记为2.6T。与先前开放数据语言模型的最新技术MAP-Neo相比,DCLM-Baseline在MMLU上的改进达到了6.6个百分点,同时计算量减少了40%。我们的基准模型也与Mistral-7B-v0.3和Llama 3 8B在MMLU上表现相当(63%和66%),并在53个自然语言理解任务的平均表现上与Llama 3 8B相比,计算量减少了6.6倍。我们的结果突显了数据集设计对于训练语言模型的重要性,并为进一步研究数据策划提供了一个起点。

论文链接: https://arxiv.org/pdf/2406.11794

cs.CL: 分割、遗忘、合并:利用数据属性实现大语言模型更有效的遗忘

原标题: Split, Unlearn, Merge: Leveraging Data Attributes for More Effective Unlearning in LLMs

作者: Swanand Ravindra Kadhe, Farhan Ahmed, Dennis Wei, Nathalie Baracaldo, Inkit Padhi

机构:

摘要: 大语言模型(LLMs)已经显示出存在社会和伦理风险,例如生成有毒语言或促进危险知识的恶意使用。机器去学习是一种改善LLM安全性的有希望的方法,它通过直接消除有害行为和知识来实现。在本文中,我们提出了“SPlit, UNlearn, MerGE”(SPUNGE),这是一个框架,可以与任何去学习方法一起使用,以增强其效果。SPUNGE通过在去学习过程中利用数据属性,将去学习数据根据特定属性值分成子集,分别对每个子集进行去学习,然后合并已去学习的模型。我们在实证中证明,SPUNGE显著提高了两种最新去学习方法在最先进的LLMs上的性能,同时保持它们在标准学术基准测试中的通用能力。

论文链接: https://arxiv.org/pdf/2406.11780

cs.CL: GAMA:具有先进音频理解和复杂推理能力的大型音频语言模型

原标题: GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities

作者: Sreyan Ghosh, Sonal Kumar, Ashish Seth, Chandra Kiran Reddy Evuru, Utkarsh Tyagi, S Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha

机构: 马里兰大学学院园 美国 Adobe

摘要: 感知和理解非语音声音和非语言言语对于做出帮助我们与周围环境互动的决策至关重要。在本文中,我们提出了GAMA,一种新颖的具有先进音频理解和复杂推理能力的通用大型音频语言模型(LALM)。我们通过将LLM与多种类型的音频表示集成来构建GAMA,包括来自自定义音频Q-Former的特征,这是一个多层聚合器,用于聚合来自音频编码器多层的特征。我们在大规模音频语言数据集上对GAMA进行微调,从而增强其音频理解能力。接下来,我们提出了CompA-R(用于复杂音频推理的指令调整),这是一个合成生成的指令调整(IT)数据集,其中包含需要模型对输入音频执行复杂推理的指令。我们使用CompA-R对GAMA进行指令调整,赋予其复杂推理能力,同时通过利用输入音频的事件标签添加一个高级语义证据的软提示作为输入。最后,我们还提出了CompA-R-test,这是一个人工标记的评估数据集,用于评估LALM在需要复杂推理的开放式音频问答任务上的能力。通过自动化和专家人工评估,我们展示了GAMA在各种音频理解任务上的表现优于文献中所有其他LALM,优势范围为1%-84%。此外,经CompA-R指令调整的GAMA在复杂推理和遵循指令能力方面表现出更高水平。

论文链接: https://arxiv.org/pdf/2406.11768

cs.CL: STAR:社会技术方法应用于红队语言模型

原标题: STAR: SocioTechnical Approach to Red Teaming Language Models

作者: Laura Weidinger, John Mellor, Bernat Guillen Pegueroles, Nahema Marchal, Ravin Kumar, Kristian Lum, Canfer Akbulut, Mark Diaz, Stevie Bergman, Mikel Rodriguez, Verena Rieser, William Isaac

机构: 谷歌DeepMind 谷歌谷歌实验室

摘要: 这项研究介绍了STAR,这是一个社会技术框架,改进了当前大型语言模型红队安全的最佳实践。STAR做出了两个关键贡献:通过为人类红队提供参数化指令来增强可操纵性,从而提高风险表面的覆盖范围。参数化指令还可以在不增加成本的情况下提供更详细的模型失败洞察。其次,STAR通过将人口统计数据与特定群体的伤害评估相匹配,提高了信号质量,导致更敏感的注释。STAR进一步采用了一种新颖的仲裁步骤,利用多元化观点并提高标签可靠性,将分歧视为信号质量的有价值贡献,而不是噪音。

论文链接: https://arxiv.org/pdf/2406.11757

cs.CL: 利用大语言模型进行多层排名,用于新闻来源推荐。

原标题: Multi-Layer Ranking with Large Language Models for News Source Recommendation

作者: Wenjia Zhang, Lin Gui, Rob Procter, Yulan He

机构: 华威大学 伦敦国王学院 图灵研究所

摘要: 为了寻找新闻事件的可靠信息来源,我们引入了一个新颖的专家推荐任务,旨在根据其先前引用的言论来识别值得信赖的来源。为了实现这一目标,我们构建了一个名为NewsQuote的新颖数据集,其中包含来自一系列新闻文章的23,571个引用-发言者对。我们将推荐任务形式化为根据他们与给定查询相关性的可能性来检索专家。我们还提出了一个采用大语言模型的多层排名框架,以提高推荐性能。我们的结果表明,采用基于上下文学习的LLM排名器和多层排名过滤器显著提高了推荐系统的预测质量和行为质量。

论文链接: https://arxiv.org/pdf/2406.11745

cs.CL: 1000 非洲之声:推动包容性多说话者多口音语音合成

原标题: 1000 African Voices: Advancing inclusive multi-speaker multi-accent speech synthesis

作者: Sewade Ogun, Abraham T. Owodunni, Tobi Olatunji, Eniola Alese, Babatunde Oladimeji, Tejumade Afonja, Kayode Olaleye, Naome A. Etori, Tosin Adewumi

机构: Universit´ e de Lorraine Intron Health Amazethu Research CISPA Helmholtz Center for Information Security AI Saturdays Lagos Data Science for Social Impact Group University of Pretoria University of Minnesota - Twin Cities Lule˚ a University of Technology Masakhane NLP

摘要: 最近语音合成技术的进步已经实现了许多有用的应用,比如谷歌地图中的语音导航,屏幕阅读器,以及像 TikTok 这样的平台上的自动内容生成。然而,这些系统大多由来自数据丰富地区的声音主导,其人设代表着他们的数据来源。尽管世界上有 3000 种语言在非洲有居住地,非洲的声音和人设在这些系统中却被低估了。随着语音合成变得越来越民主化,增加非洲英语口音的代表性是可取的。我们提出 Afro-TTS,这是第一个能够在 86 种非洲口音中生成语音的泛非洲口音英语语音合成系统,拥有 1000 个人设,代表了整个非洲大陆上丰富的语音多样性,可用于教育、公共卫生和自动内容创作等领域。说话者插值保留了自然性和口音特点,使得可以创造出新的声音。

论文链接: https://arxiv.org/pdf/2406.11727

cs.CL: 语料翻译结果:

语言模型中的拒绝是通过单一方向进行调节
  • 1

原标题: Refusal in Language Models Is Mediated by a Single Direction

作者: Andy Arditi, Oscar Obeso, Aaquib Syed, Daniel Paleka, Nina Rimsky, Wes Gurnee, Neel Nanda

机构: ETH Zürich University of Maryland MIT Anthropic

摘要: 会话式大语言模型被微调以遵循指令和确保安全,导致模型遵守良性请求但拒绝有害请求。虽然这种拒绝行为在聊天模型中很普遍,但其潜在机制仍然知之甚少。在这项工作中,我们展示了拒绝是通过一个一维子空间介导的,跨越了13个流行的开源聊天模型,规模高达72B参数。具体而言,对于每个模型,我们找到一个单一方向,擦除这个方向会阻止模型拒绝有害指令,而添加这个方向会导致即使是无害指令也被拒绝。利用这一见解,我们提出了一种新颖的白盒越狱方法,可以在最小影响其他功能的情况下手术式地禁用拒绝。最后,我们从机械角度分析了敌对后缀如何抑制拒绝介导方向的传播。我们的发现强调了当前安全微调方法的脆弱性。更广泛地说,我们的工作展示了如何利用对模型内部的理解来开发控制模型行为的实用方法。

论文链接: https://arxiv.org/pdf/2406.11717

cs.CL: 在 RLHF 中衡量代码补全的记忆化

原标题: Measuring memorization in RLHF for code completion

作者: Aneesh Pappu, Billy Porter, Ilia Shumailov, Jamie Hayes

机构: 谷歌DeepMind 谷歌

摘要: 强化学习与人类反馈(RLHF)已成为将大型模型与用户偏好对齐的主要方法。与微调不同,关于训练数据记忆的研究很多,但尚不清楚记忆是如何受到或在RLHF对齐过程中引入的。理解这种关系很重要,因为真实用户数据可能被收集并用于对齐大型模型;如果用户数据在RLHF过程中被记忆并在以后被复述,这可能引发隐私问题。在这项工作中,我们分析了训练数据记忆如何在RLHF的每个阶段中浮出并传播。我们将研究重点放在代码补全模型上,因为代码补全是大型语言模型最流行的用例之一。我们发现,与直接在这些数据上微调对齐相比,RLHF显著降低了用于奖励建模和强化学习的数据被记忆的机会,但在RLHF微调阶段已经记忆的示例,在大多数情况下,在RLHF之后仍将保持记忆。

论文链接: https://arxiv.org/pdf/2406.11715

cs.CL: DiTTo-TTS:具有扩散Transformer的高效可扩展零样本文本转语音

原标题: DiTTo-TTS: Efficient and Scalable Zero-Shot Text-to-Speech with Diffusion Transformer

作者: Keon Lee, Dong Won Kim, Jaehyeon Kim, Jaewoong Cho

机构: KRAFTON

摘要: 大规模扩散模型已经展示出在多种形式上包括图像、视频和音频中出色的生成能力。然而,文本转语音(TTS)系统通常涉及特定领域建模因素(例如音素和音素级持续时间),以确保文本和语音之间的精确时间对齐,这阻碍了扩散模型在TTS方面的效率和可扩展性。在这项工作中,我们提出了一种高效且可扩展的扩散Transformer(DiT),利用现成的预训练文本和语音编码器。我们的方法通过交叉注意力机制和对语音表示总长度的预测来解决文本-语音对齐的挑战。为了实现这一点,我们改进了DiT架构以适应TTS,并通过将语义引导纳入语音的潜在空间来改善对齐。我们将训练数据集和模型大小扩展到82K小时和790M参数。我们广泛的实验表明,无需特定领域建模的大规模扩散模型不仅简化了训练流程,而且在自然性、可懂性和说话者相似性方面产生了优越或可比的零样本性能,与最先进的TTS模型相媲美。我们的语音样本可在此 https URL 上获得。

论文链接: https://arxiv.org/pdf/2406.11427

Github: https://ditto-tts.github.io

cs.CL: 将 Auto-Optimized Training Hyperparameters 作为提示:使用 10 个 Gold Labels 从头开始训练最佳 IR 模型

原标题: Prompts as Auto-Optimized Training Hyperparameters: Training Best-in-Class IR Models from Scratch with 10 Gold Labels

作者: Jasper Xian, Saron Samuel, Faraz Khoubsirat, Ronak Pradeep, Md Arafat Sultan, Radu Florian, Salim Roukos, Avirup Sil, Christopher Potts, Omar Khattab

机构: 滑稽作为自动优化训练超参数:从头开始训练最佳IR模型与10个金标签
Jasper Xian,Saron Samuel,Faraz Khoubsirat,Ronak Pradeep,Md Arafat Sultan,Radu Florian,Salim Roukos,Avirup Sil,Christopher Potts,Omar Khattab
滑稽:滑铁卢大学
Stanford University:斯坦福大学
IBM Research AI:IBM研究人工智能

摘要: 我们开发了一种方法,用于训练规模较小(不超过1亿参数)的神经信息检索模型,只需10个黄金相关性标签。该方法依赖于使用语言模型(LM)为文档生成合成查询的过程,关键步骤是我们根据训练质量自动优化用于生成这些查询的LM提示。在对BIRCO基准进行实验中,我们发现使用我们的方法训练的模型胜过RankZephyr,并且与RankLLama竞争激烈,后者是使用超过100K标签训练的7B参数模型。这些发现表明自动提示优化对于合成数据集生成具有强大的作用。

论文链接: https://arxiv.org/pdf/2406.11706

cs.CL: 评估开源大语言模型在企业特定的RAG系统中的功效:性能和可扩展性的比较研究

原标题: Evaluating the Efficacy of Open-Source LLMs in Enterprise-Specific RAG Systems: A Comparative Study of Performance and Scalability

作者: Gautam B, Anupam Purwar

机构: 印度理工学院马德拉斯分校 独立

摘要: 本文介绍了对开源大型语言模型(LLMs)的分析,以及它们在检索增强生成(RAG)任务中的应用,特别是针对从企业网站上抓取的特定企业数据集。随着自然语言处理中对LLMs的依赖日益增加,评估它们在特定组织环境中的性能、可访问性和集成至关重要。本研究考察了各种开源LLMs,探讨了它们如何结合企业特定数据集集成到RAG框架中,并评估了不同开源嵌入在增强检索和生成过程中的性能。我们的研究结果表明,结合有效的嵌入技术,开源LLMs可以显著提高RAG系统的准确性和效率,为企业提供了一种可行的替代方案,而不是专有解决方案。

论文链接: https://arxiv.org/pdf/2406.11424

cs.CL: TourRank: 利用大语言模型和一种受锦标赛启发的策略进行文档排名

原标题: TourRank: Utilizing Large Language Models for Documents Ranking with a Tournament-Inspired Strategy

作者: Yiqun Chen, Qi Liu, Yi Zhang, Weiwei Sun, Daiting Shi, Jiaxin Mao, Dawei Yin

机构: 中国人民大学GSAI、百度公司

摘要: 大语言模型(LLMs)越来越多地被用于零样本文档排序,取得了令人称赞的结果。然而,在LLMs用于排序方面仍然存在一些重要挑战:(1)LLMs受限于有限的输入长度,无法同时处理大量文档;(2)输出文档顺序受到输入文档顺序的影响,导致排序结果不一致;(3)在成本和排序性能之间取得平衡是非常具有挑战性的。为了解决这些问题,我们引入了一种名为TourRank的新型文档排序方法,受到了锦标赛机制的启发。这种方法通过智能分组减轻了LLM有限输入长度的影响,而类似锦标赛的积分系统确保了稳健的排序,减轻了文档输入顺序的影响。我们在TREC DL数据集和BEIR基准上测试了TourRank与不同LLMs。实验结果表明,TourRank以合理的成本实现了最先进的性能。

论文链接: https://arxiv.org/pdf/2406.11678

cs.CL: 挖掘词汇、社交媒体和网络图网络,用于不可靠网站分类和识别。

原标题: Dredge Word, Social Media, and Webgraph Networks for Unreliable Website Classification and Identification

作者: Evan M. Williams, Peter Carragher, Kathleen M. Carley

机构: 卡内基梅隆大学

摘要: 为了模仿不可靠内容在搜索引擎和社交媒体之间传播的复杂路径,我们探讨了将网络图和大规模社交媒体背景纳入网站可信度分类和发现系统的影响。我们进一步探讨了在社交媒体上使用我们定义的“dredge words”——指不可靠域名排名较高的术语或短语。通过全面的图神经网络消融实验,我们证明了基于课程的异构图模型,在利用来自网络图和社交媒体数据的背景时,优于同质和单模态方法。我们进一步证明,将dredge words纳入我们的模型,将不可靠网站与社交媒体和在线商务平台强烈关联起来。最后,我们展示了我们的异构模型在未标记的不可靠网站的top-k识别中远远优于竞争系统。我们展示了用户发现不可靠内容的多样路径中存在的强烈不可靠信号,并发布了一组新颖的dredge words数据集。

论文链接: https://arxiv.org/pdf/2406.11423

cs.CL: BLoB: 通过反向传播进行贝叶斯低秩调整,用于大语言模型

原标题: BLoB: Bayesian Low-Rank Adaptation by Backpropagation for Large Language Models

作者: Yibin Wang, Haizhou Shi, Ligong Han, Dimitris Metaxas, Hao Wang

机构: 清华大学 新加坡国立大学 罗格斯大学

摘要: 大语言模型(LLMs)在推断过程中经常表现出过度自信,特别是当它们适应具有有限数据的下游领域特定任务时。先前的工作通过在LLMs训练后采用近似贝叶斯估计来解决这个问题,使它们能够量化不确定性。然而,这种后训练方法的性能受到训练期间学习的参数严重限制。在本文中,我们超越了后训练的贝叶斯化,提出了一种名为贝叶斯低秩调整的反向传播(BLoB)的算法,该算法在整个微调过程中持续并联合调整LLM参数的均值和协方差。我们的实证结果验证了BLoB在泛化和不确定性估计方面的有效性,当在分布内和分布外数据上进行评估时。

论文链接: https://arxiv.org/pdf/2406.11675

cs.CL: 多模态结构生成:CVPR第二届MMFM挑战赛技术报告

原标题: Multimodal Structured Generation: CVPR’s 2nd MMFM Challenge Technical Report

作者: Franz Louis Cesista

机构: 计算机视觉与模式识别(CVPR)会议

摘要: 多模态基础模型(MMFMs)在各种计算机视觉和自然语言处理任务上展现出卓越的性能。然而,它们在特定任务(如文档理解)上的性能仍然有限。与传统的单模态模型相比,它们还需要更多的计算、时间和工程资源来进行微调和部署。在这份报告中,我们提出了多模态结构化生成,这是一个通用框架,它约束了冻结的MMFMs的输出logits,迫使它们在用结构化输出回应之前进行推理,以便下游API可以解析和使用。我们详细介绍了我们的方法,包括技术细节、理论讨论以及在由计算机视觉和模式识别(CVPR)会议主办的第二届多模态基础模型挑战赛中的最终评估结果。我们的方法在第二阶段的隐藏测试集中取得了第二高的分数,总体排名第三。这表明该方法能够推广到未见过的任务。正如我们在我们的论文《检索增强结构化生成:将商业文档信息提取作为工具使用》中首次讨论的那样,简单的工程方法可以击败昂贵且复杂的建模步骤。我们所有的脚本、部署步骤和评估结果都可以在这个https URL中访问。

论文链接: https://arxiv.org/pdf/2406.11403

Github: https://github.com/leloykun/MMFM-Challenge

cs.CL: 运动中的文字:运动预测的表示工程

原标题: Words in Motion: Representation Engineering for Motion Forecasting

作者: Omer Sahin Tas, Royden Wagner

机构: FZI信息技术研究中心 卡尔斯鲁厄理工学院

摘要: 运动预测将过去的动作序列和环境背景转化为未来的运动。最近的方法依赖于学习表示,导致难以解释的隐藏状态。在这项工作中,我们使用自然语言以人可解释的方式量化运动特征,并衡量它们嵌入隐藏状态的程度。我们的实验揭示了运动序列的隐藏状态是根据我们离散的运动特征集进行排列的。根据这些见解,我们将控制向量拟合到运动特征中,这允许在推断时控制运动预测。因此,我们的方法使得可以用文本输入控制基于Transformer的运动预测模型,为与这些模型交互和理解提供了独特的接口。我们的实现可在此网址找到。

论文链接: https://arxiv.org/pdf/2406.11624

Github: https://github.com/kit-mrt/future-motion

cs.CL: ```

MoE-RBench \texttt{MoE-RBench} MoE-RBench:朝着利用稀疏专家混合构建可靠的语言模型

            
**原标题**: **$\texttt{MoE-RBench}$: Towards Building Reliable Language Models with Sparse Mixture-of-Experts**

**作者**: Guanjie Chen, Xinyu Zhao, Tianlong Chen, Yu Cheng

**机构**: 清华大学 谷歌


**摘要**: 混合专家(MoE)作为扩展大语言模型(LLMs)的有前途的框架,已经越来越受到欢迎。然而,MoE的可靠性评估落后于其不断增长的应用。此外,当转移到新领域,例如在微调MoE模型时,有时会表现不如其密集对应物。受到研究空白和反直觉现象的启发,我们提出了$\texttt{MoE-RBench}$,对SMoE可靠性进行了首次全面评估,从三个方面进行评估:$\textit{(i)}$ 安全性和幻觉,$\textit{(ii)}$ 对抗性攻击的弹性,和 $\textit{(iii)}$ 基于分布的鲁棒性。我们测试了大量模型和数据集,从这些可靠性维度比较MoE和密集网络。我们的实证观察表明,通过适当的超参数、训练配方和推理技术,我们可以比密集LLM更可靠地构建MoE模型。特别是,我们发现SMoE的鲁棒性对基本训练设置敏感。我们希望这项研究能够更深入地了解如何将预训练的MoE模型调整到具有更高生成安全性、质量和稳定性的其他任务。代码可在此 https URL 上找到。

**论文链接**: https://arxiv.org/pdf/2406.11353 

**Github**: https://github.com/UNITES-Lab/MoE-RBench



## cs.CL: GECOBench:一个用于量化解释中偏见的性别控制文本数据集和基准。
            
**原标题**: **GECOBench: A Gender-Controlled Text Dataset and Benchmark for Quantifying Biases in Explanations**

**作者**: Rick Wilming, Artur Dox, Hjalmar Schulz, Marta Oliveira, Benedict Clark, Stefan Haufe

**机构**: 柏林工业大学 德国 物理技术联邦研究所 柏林 德国 夏里特-柏林大学医学院 德国


**摘要**: 大型预训练语言模型已经在许多应用中变得流行,并成为自然语言处理(NLP)中许多下游任务的重要支柱。将“可解释人工智能”(XAI)技术应用于丰富这些模型的输出被认为对于确保它们的质量并揭示它们的内部运作方式至关重要。然而,大型语言模型是在包含各种偏见的大量数据上进行训练的,例如性别偏见,这些偏见会影响模型权重,可能影响行为。目前尚不清楚这些偏见在多大程度上也会以可能不利的方式影响模型解释。我们创建了一个性别控制文本数据集GECO,其中相同的句子以男性和女性形式出现。这为性别分类任务带来了基本事实的“世界解释”,从而使得对XAI方法的正确性进行客观评估成为可能。我们还提供了GECOBench,一个严格的定量评估框架,对流行的XAI方法进行基准测试,将它们应用于不同程度微调的预训练语言模型。这使我们能够调查预训练如何在模型解释中引入不良偏见,以及微调在多大程度上可以减轻这种解释偏见。我们展示了解释性能与微调层数量之间的明显依赖关系,观察到XAI方法特别受益于微调或完全重新训练嵌入层。值得注意的是,这种关系适用于在相同任务上实现类似分类性能的模型。通过这一点,我们强调了所提出的性别控制数据集和新颖基准测试方法对于研究和开发新型XAI方法的实用性。所有代码,包括数据集生成、模型训练、评估和可视化,均可在此https URL上找到。

**论文链接**: https://arxiv.org/pdf/2406.11547 

**Github**: https://github.com/braindatalab/gecobench



## cs.CL: 从通用视觉语言模型到多才多艺的 GUI 智能体
            
**原标题**: **GUICourse: From General Vision Language Models to Versatile GUI Agents**

**作者**: Wentong Chen, Junbo Cui, Jinyi Hu, Yujia Qin, Junjie Fang, Yue Zhao, Chongyi Wang, Jun Liu, Guirong Chen, Yupeng Huo, Yuan Yao, Yankai Lin, Zhiyuan Liu, Maosong Sun

**机构**: 中国人民大学 清华大学 厦门大学 北京邮电大学 中国科学院计算技术研究所 电子科技大学


**摘要**: 利用图形用户界面(GUI)进行人机交互对于访问各种数字工具至关重要。最近视觉语言模型(VLMs)的进展突显了开发多才多艺的智能体来帮助人类完成GUI导航任务的巨大潜力。然而,目前的VLMs在基本能力(OCR和基础)以及GUI知识(GUI元素的功能和控制方法)方面存在挑战,阻碍了它们成为实用的GUI智能体。为了解决这些挑战,我们提出了GUICourse,一个用于从通用VLMs训练基于视觉的GUI智能体的数据集套件。首先,我们引入了GUIEnv数据集,以加强VLMs的OCR和基础能力。然后,我们引入了GUIAct和GUIChat数据集,以丰富它们对GUI组件和交互的知识。实验证明,我们的GUI智能体在常见GUI任务上比其基准VLMs表现更好。即使是小型GUI智能体(具有31亿参数)仍然可以在单步和多步GUI任务上表现良好。最后,我们通过消融研究分析了该智能体训练阶段的不同变化。我们的源代码和数据集已在此 https URL 上发布。

**论文链接**: https://arxiv.org/pdf/2406.11317 

**Github**: https://github.com/yiye3/GUICourse



## cs.CL: GigaSpeech 2:一个不断发展的、大规模的、多领域的 ASR 语料库,用于低资源语言,具有自动爬取、转录和精化。
            
**原标题**: **GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement**

**作者**: Yifan Yang, Zheshu Song, Jianheng Zhuo, Mingyu Cui, Jinpeng Li, Bo Yang, Yexing Du, Ziyang Ma, Xunying Liu, Ziyuan Wang, Ke Li, Shuai Fan, Kai Yu, Wei-Qiang Zhang, Guoguo Chen, Xie Chen

**机构**: 上海交通大学 中国香港中文大学 清华大学 浙江大学 深圳市鹏城实验室 Birch AI Dataocean AI AISpeech Ltd Seasalt AI Inc SpeechColab


**摘要**: 语音技术的发展受到数据集规模的快速增长的推动。传统的语音模型通常依赖大量标记的训练数据,而这对于资源匮乏的语言来说是稀缺的。本文介绍了 GigaSpeech 2,这是一个大规模、多领域、多语种的语音识别语料库。它专为资源匮乏的语言设计,不依赖配对的语音和文本数据。GigaSpeech 2 包括约 30,000 小时的自动转录语音,包括泰语、印尼语和越南语,这些语音是从未标记的 YouTube 视频中收集而来的。我们还介绍了一个用于数据爬取、转录和标签细化的自动化流程。具体来说,该流程使用 Whisper 进行初始转录,使用 TorchAudio 进行强制对齐,结合多维过滤以确保数据质量。我们开发了一种改进的 Noisy Student Training 方法,用于迭代地进一步完善有缺陷的伪标签,从而提高模型性能。在我们手动转录的评估集以及来自 Common Voice 和 FLEURS 的两个公共测试集上的实验结果证实了我们语料库的高质量和广泛适用性。值得注意的是,在我们具有挑战性和现实性的 YouTube 测试集上,基于 GigaSpeech 2 训练的 ASR 模型可以将泰语、印尼语和越南语的词错误率相对于 Whisper 大型-v3 模型降低 25% 到 40%,而仅使用了 10% 的模型参数。此外,我们基于 GigaSpeech 2 训练的 ASR 模型在性能上优于商业服务。我们相信,我们新引入的语料库和流程将为资源匮乏的语音识别开辟新途径,并显著促进该领域的研究。

**论文链接**: https://arxiv.org/pdf/2406.11546 



## cs.CL: mDPO: 用于多模态大语言模型的条件偏好优化
            
**原标题**: **mDPO: Conditional Preference Optimization for Multimodal Large Language Models**

**作者**: Fei Wang, Wenxuan Zhou, James Y. Huang, Nan Xu, Sheng Zhang, Hoifung Poon, Muhao Chen

**机构**: 南加州大学 加州大学戴维斯分校 微软研究


**摘要**: 直接偏好优化(DPO)已被证明是大语言模型(LLM)对齐的有效方法。最近的研究尝试将DPO应用于多模态场景,但发现难以实现一致的改进。通过一项比较实验,我们确定了多模态偏好优化中的无条件偏好问题,即模型忽视了图像条件。为了解决这个问题,我们提出了mDPO,一种多模态DPO目标,通过优化图像偏好来防止过度优先考虑仅限于语言的偏好。此外,我们引入了一种奖励锚点,强制奖励对于所选响应是正的,从而避免其可能性降低——这是相对偏好优化的固有问题。对两种不同规模的多模态LLM和三个广泛使用的基准进行的实验表明,mDPO有效地解决了多模态偏好优化中的无条件偏好问题,并显著提高了模型性能,特别是在减少幻觉方面。

**论文链接**: https://arxiv.org/pdf/2406.11839 



## cs.CL: VideoVista:一个用于视频理解和推理的多功能基准。
            
**原标题**: **VideoVista: A Versatile Benchmark for Video Understanding and Reasoning**

**作者**: Yunxin Li, Xinyu Chen, Baotian Hu, Longyue Wang, Haoyuan Shi, Min Zhang

**机构**: 哈尔滨工业大学深圳




**摘要**: 尽管由于大型多模型(LMMs)的快速发展推动了视频分析方面的重大突破,但在视频理解和推理方面仍然缺乏一个多功能的评估基准来全面评估这些模型的性能。为了解决这个问题,我们提出了VideoVista,一个视频问答基准,它整合了跨越不同内容类别、持续时间和能力的挑战。具体而言,VideoVista 包括来自 14 个类别(例如 Howto、Film 和 Entertainment)的 3,400 个视频衍生出的 25,000 个问题,持续时间从几秒到超过 10 分钟不等。此外,它涵盖了 19 种理解任务类型(例如异常检测、交互理解)和 8 种推理任务类型(例如逻辑推理、因果推理)。为了实现这一目标,我们提出了一个自动数据构建框架,利用强大的 GPT-4o 以及先进的分析工具(例如视频分割、对象分割和跟踪)。我们还利用这个框架构建训练数据,以增强与视频相关的 LMMs(Video-LMMs)的能力。通过对尖端模型的全面和定量评估,我们揭示了以下结果:1)Video-LMMs 在涉及时间位置、对象跟踪和异常检测等细粒度视频任务方面面临困难;2)Video-LMMs 具有较差的逻辑和关系推理能力;3)开源 Video-LMMs 的性能明显低于 GPT-4o 和 Gemini-1.5,落后 20 分。这突显了 VideoVista 在推动能够准确理解视频并进行精确推理的 LMMs 方面将发挥关键作用。

**论文链接**: https://arxiv.org/pdf/2406.11303 



## cs.CL: 优化和测试指令遵循:分析细粒度指令变体对指令调整的大语言模型的影响
            
**原标题**: **Optimizing and Testing Instruction-Following: Analyzing the Impact of Fine-Grained Instruction Variants on instruction-tuned LLMs**

**作者**: Jiuding Yang, Weidong Guo, Kaitong Yang, Xiangyang Li, Zhuwei Rao, Yu Xu, Di Niu

**机构**: 阿尔伯塔大学 腾讯


**摘要**: 大语言模型(LLMs)与精确指令的有效对齐对它们在各种现实场景中的应用至关重要。当前的方法侧重于增强训练和评估样本的多样性和复杂性,但在准确评估LLMs遵循类似指令变体的能力方面表现不佳。我们引入了一种有效的数据增强技术,将复杂指令分解为更简单的子组件,对其进行修改,并将其重构为新的变体,从而保留原始指令的上下文和复杂性,同时引入变化性,这对于训练和评估LLMs的指令遵循精度至关重要。我们使用这种方法开发了DeMoRecon数据集,用于微调和评估LLMs。我们的研究结果表明,使用DeMoRecon进行微调的LLMs在我们和常用的指令遵循基准测试中都将获得显著的性能提升。

**论文链接**: https://arxiv.org/pdf/2406.11301 



## cs.CL: GeoGPT4V: 朝向具有几何图像生成的几何多模态大语言模型
            
**原标题**: **GeoGPT4V: Towards Geometric Multi-modal Large Language Models with Geometric Image Generation**

**作者**: Shihao Cai, Keqin Bao, Hangyu Guo, Jizhi Zhang, Jun Song, Bo Zheng

**机构**: 中国科学技术大学 阿里巴巴集团


**摘要**: 大语言模型已经在数学问题解决中得到广泛应用。然而,在几何问题中通常需要视觉辅助以更好地理解,即使是目前最先进的多模型也仍然面临有效利用图像信息的挑战。高质量的数据对于增强多模型的几何能力至关重要,然而现有的开源数据集和相关工作要么对于直接模型学习来说过于具有挑战性,要么存在文本和图像之间的不对齐问题。为了解决这个问题,我们引入了一种新颖的流程,利用 GPT-4 和 GPT-4V 生成相对基础的几何问题,其中文本和图像对齐,有助于模型学习。我们已经生成了一个包含4.9K个几何问题的数据集,并将其与19K个开源数据相结合,形成我们的 GeoGPT4V 数据集。实验结果表明,GeoGPT4V 数据集显著提高了各种模型在 MathVista 和 MathVision 基准上的几何性能。代码可在此 https URL 获取。

**论文链接**: https://arxiv.org/pdf/2406.11503 

**Github**: https://github.com/Lanyu0303/GeoGPT4V_Project



## cs.CL: 通过受哲学中相关性启发的大语言模型迭代效用判断框架
            
**原标题**: **Iterative Utility Judgment Framework via LLMs Inspired by Relevance in Philosophy**

**作者**: Hengran Zhang, Keping Bi, Jiafeng Guo, Xueqi Cheng

**机构**: 中国科学院计算技术研究所  中国科学院大学 计算机科学与技术学院


**摘要**: 实用性和话题相关性是信息检索(IR)中的关键衡量标准,分别反映了系统和用户的观点。虽然长期以来一直强调话题相关性,但实用性是更高标准的相关性,对于促进下游任务(例如在检索增强生成(RAG)中)更有用。当我们将实用性判断纳入RAG时,我们意识到RAG中的话题相关性、实用性和回答与Schutz从哲学角度讨论的三种相关性密切相关。它们分别是话题相关性、解释相关性和动机相关性。受到三种相关性动态迭代的启发,我们提出了一个迭代实用性判断框架(ITEM),以促进RAG循环的每个步骤。我们在多级段落检索和事实型问答数据集(即TREC DL、WebAP和NQ)上进行了大量实验。实验结果显示,在代表性基线(包括多个单样本实用性判断方法)的基础上,实用性判断、话题相关性排名和答案生成均有显著改进。我们的代码和基准测试可以在https://anonymous.4open.science/r/ITEM-B486/找到。

**论文链接**: https://arxiv.org/pdf/2406.11290 



## cs.CL: 自我和跨模型蒸馏用于LLMs:拒绝模式对齐的有效方法
            
**原标题**: **Self and Cross-Model Distillation for LLMs: Effective Methods for Refusal Pattern Alignment**

**作者**: Jie Li, Yi Liu, Chongyang Liu, Xiaoning Ren, Ling Shi, Weisong Sun, Yinxing Xue

**机构**: 中国科学技术大学 南洋理工大学


**摘要**: 大语言模型(LLMs)如OpenAI的GPT系列、Anthropic的Claude和Meta的LLaMa在文本生成方面展现出了显著的能力。然而,它们对有毒提示的敏感性带来了重大的安全挑战。本文研究了包括监督微调(SFT)和从人类反馈中进行强化学习(RLHF)在内的对齐技术,以减轻这些风险。我们对九个LLMs进行了拒绝模式的实证研究,揭示了具有统一拒绝模式的模型(如Claude3)表现出更高的安全性。基于这些发现,我们提出了自我蒸馏和跨模型蒸馏方法来增强LLM的安全性。我们的结果表明,这些方法显著提高了拒绝率并减少了不安全内容,其中跨模型蒸馏实现了接近Claude3的94.51%的拒绝率。这些发现强调了基于蒸馏的对齐在保护LLMs免受有毒提示方面的潜力。

**论文链接**: https://arxiv.org/pdf/2406.11285 



## cs.CL: 探究大语言模型中上下文学习的决策边界
            
**原标题**: **Probing the Decision Boundaries of In-context Learning in Large Language Models**

**作者**: Siyan Zhao, Tung Nguyen, Aditya Grover

**机构**: 加州大学洛杉矶分校 计算机科学系


**摘要**: 在大语言模型(LLMs)中,上下文学习是一个关键范式,它使它们能够通过简单地提示这些模型使用一些示例来泛化到新的任务和领域,而无需进行显式参数更新。许多尝试都致力于理解LLMs中上下文学习与模型规模、预训练数据和其他因素的关系。在这项工作中,我们提出了一种新的机制,从上下文二元分类的决策边界的角度来探究和理解上下文学习。决策边界易于可视化,并提供了关于标准分类器的归纳偏差的定性行为的重要信息。令我们惊讶的是,我们发现当前LLMs在简单的二元分类任务中学习到的决策边界通常是不规则且不平滑的,而不管底层任务中是否线性可分。本文研究了影响这些决策边界的因素,并探讨了增强它们泛化能力的方法。我们评估了各种方法,包括针对LLMs的无训练和微调方法,模型架构的影响,以及通过主动提示技术以数据高效的方式平滑决策边界的有效性。我们的研究结果深入理解了上下文学习动态,并提供了增强上下文学习的鲁棒性和泛化能力的实际改进。

**论文链接**: https://arxiv.org/pdf/2406.11233 



## cs.CL: 实现让机器人能够遵循抽象指令并完成复杂动态任务
            
**原标题**: **Enabling robots to follow abstract instructions and complete complex dynamic tasks**

**作者**: Ruaridh Mon-Williams, Gen Li, Ran Long, Wenqian Du, Chris Lucas

**机构**: 爱丁堡大学 麻省理工学院 普林斯顿大学 艾伦·图灵研究所


**摘要**: 在像家庭厨房这样不可预测的环境中完成复杂任务挑战着机器人系统。这些挑战包括解释高级人类指令,比如“给我做一杯热饮”,并执行诸如向移动杯子中倒入精确数量的水等动作。为了解决这些挑战,我们提出了一个结合了大语言模型(LLMs)、策划的知识库和集成力量与视觉反馈(IFVF)的新框架。我们的方法解释抽象指令,执行长期任务,并处理各种不确定性。它利用 GPT-4 分析用户的查询和周围环境,然后生成访问策划数据库函数的代码。它将抽象指令转化为可操作步骤。每个步骤都涉及生成定制代码,通过利用检索增强泛化从知识库中提取与 IFVF 相关的示例。IFVF 允许机器人在执行过程中对噪音和干扰做出响应。我们使用制作咖啡和装饰盘子来演示我们的方法,包括从倒水到打开抽屉等各个组件,每个组件都受益于不同的反馈类型和方法。这一创新进展标志着朝着在不确定环境中完成复杂任务的可扩展、高效机器人框架迈出了重要的一步。我们的研究结果在一段相关视频中得到了展示,并得到了一个开放源码的 GitHub 仓库的支持(在论文被接受后发布)。

**论文链接**: https://arxiv.org/pdf/2406.11231 



## cs.CL: 多模态大语言模型中的一根稻草:对多模态大语言模型的长上下文能力进行基准测试
            
**原标题**: **Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models**

**作者**: Hengyi Wang, Haizhou Shi, Shiwei Tan, Weiyi Qin, Wenyuan Wang, Tunyu Zhang, Akshay Nambi, Tanuja Ganu, Hao Wang

**机构**: 罗格斯大学 微软研究院 武汉大学 中国科技大学


**摘要**: 多模态大语言模型(MLLMs)在各种应用中展现出显著的潜力,引起了研究人员和从业者的广泛兴趣。然而,对它们长上下文能力的全面评估仍未被充分探讨。为了填补这些空白,我们引入了MultiModal Needle-in-a-haystack(MMNeedle)基准测试,专门设计用于评估MLLMs的长上下文能力。除了多图像输入外,我们还采用图像拼接来进一步增加输入上下文长度,并制定了一个协议,用于自动生成子图像级别检索的标签。基本上,MMNeedle通过对MLLMs进行压力测试,评估它们在基于文本指令和图像内容描述的情况下,在一组图像(草垛)中定位目标子图像(针)的能力。这种设置需要对广泛的视觉背景有高级理解,并在长上下文图像输入中进行有效的信息检索。通过这个基准测试,我们评估了最先进的MLLMs,包括基于API和开源模型。研究结果显示,GPT-4o在长上下文场景中始终优于其他模型,但在负样本(即,针不在草垛中)中存在幻觉问题。我们对MLLMs的全面长上下文评估还揭示了基于API和开源模型之间的显著性能差距。重现主要结果所需的所有代码、数据和说明都可以在此https URL中找到。

**论文链接**: https://arxiv.org/pdf/2406.11230 

**Github**: https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack



## cs.CL: 天气问答:多模态语言模型能否推理严重天气?
            
**原标题**: **WeatherQA: Can Multimodal Language Models Reason about Severe Weather?**

**作者**: Chengqian Ma, Zhanxiang Hua, Alexandra Anderson-Frey, Vikram Iyer, Xin Liu, Lianhui Qin

**机构**: 华盛顿大学 加利福尼亚大学圣地亚哥分校 人工智能艾伦研究所


**摘要**: 严重的对流天气事件,如冰雹、龙卷风和雷暴,通常发生迅速,但造成重大损失,每年造成数十亿美元的损失。这突显了提前几小时预测严重天气威胁的重要性,以更好地准备气象学家和处于风险地区的居民。现代大型基础模型能否进行这种预测?现有的天气基准通常只关注于预测某些天气参数(如温度、湿度)的时间序列变化,只使用文本特征。在这项工作中,我们介绍了WeatherQA,这是第一个为机器设计的多模态数据集,用于推理天气参数(即成分)的复杂组合,并在现实场景中预测严重天气。该数据集包括超过8,000个(多图像,文本)对,涵盖多种严重天气事件。每对包含了对预测至关重要的丰富信息 -- 图像描述了捕捉环境不稳定性、地表观测和雷达反射率的成分,而文本包含了人类专家撰写的预测分析。通过WeatherQA,我们通过设计两个具有挑战性的任务来评估最先进的视觉语言模型,包括GPT4、Claude3、Gemini-1.5和基于经过微调的Llama3的VLM:(1)用于预测受影响区域的多选问答和(2)对严重对流发展潜力的分类。这些任务需要对领域知识(如大气动力学)有深入理解,并对多模态数据(如天气参数之间的相互作用)进行复杂推理。我们展示了最强VLM,GPT4o,与人类推理之间存在实质差距。我们与气象学家进行的全面案例研究进一步揭示了模型的弱点,表明需要更好的训练和数据整合来弥合这一差距。WeatherQA链接:this https URL。

**论文链接**: https://arxiv.org/pdf/2406.11217 

**Github**: https://github.com/chengqianma/WeatherQA



## cs.CL: AvaTaR: 为工具辅助知识检索优化LLM智能体
            
**原标题**: **AvaTaR: Optimizing LLM Agents for Tool-Assisted Knowledge Retrieval**

**作者**: Shirley Wu, Shiyu Zhao, Qian Huang, Kexin Huang, Michihiro Yasunaga, Vassilis N. Ioannidis, Karthik Subbian, Jure Leskovec, James Zou

**机构**: 斯坦福大学 亚马逊


**摘要**: 大语言模型(LLM)智能体已经展示了在利用外部工具和知识来提高准确性并减少幻觉方面的令人印象深刻的能力。然而,开发使LLM智能体能够有效使用外部工具和知识的提示技术是一项启发式和费力的任务。在这里,我们介绍了AvaTaR,这是一个新颖且自动的框架,优化LLM智能体以有效地使用提供的工具并提高其在给定任务/领域上的性能。在优化过程中,我们设计了一个比较器模块,通过对从训练数据中采样的正面和负面示例进行推理,以迭代地向LLM智能体提供富有见地和全面的提示。我们在四个包含文本、视觉和关系信息的复杂多模态检索数据集上展示了AvaTaR。我们发现AvaTaR在所有四个具有挑战性的任务中始终优于最先进的方法,并在应用于新领域时表现出强大的泛化能力,使Hit@1指标的平均相对改进达到14%。代码和数据集可在此https URL找到。

**论文链接**: https://arxiv.org/pdf/2406.11200 

**Github**: https://github.com/zou-group/avatar



## cs.CL: SUGARCREPE++ 数据集:视觉-语言模型对语义和词汇改变的敏感性
            
**原标题**: **SUGARCREPE++ Dataset: Vision-Language Model Sensitivity to Semantic and Lexical Alterations**

**作者**: Sri Harsha Dumpala, Aman Jaiswal, Chandramouli Sastry, Evangelos Milios, Sageev Oore, Hassan Sajjad

**机构**: 达尔豪斯大学 矢量研究所


**摘要**: 尽管最先进的大语言模型(LLMs),包括视觉与语言模型(VLMs)和单模语言模型(ULMs),取得了显著的成功,但它们仍然无法理解精确的语义。例如,使用不同词汇组合表达的语义等价句会引发不同的表示。这种差异程度及其对编码语义的影响尚不是很清楚。在本文中,我们引入了SUGARCREPE++数据集,以分析VLMs和ULMs对词汇和语义改变的敏感性。SUGARCREPE++数据集中的每个样本包括一幅图像和相应的三元组标题:一对语义等价但词汇不同的正标题和一个困难的负标题。这给语言模型提出了一个三路语义(不)等价问题。我们全面评估了在架构、预训练目标和数据集方面不同的VLMs和ULMs,以评估SUGARCREPE++数据集的性能。实验结果突显了VLMs在区分词汇和语义变化方面的困难,特别是在对象属性和空间关系方面。尽管具有更大的预训练数据集、模型大小和多个预训练目标的VLMs在SUGARCREPE++上取得了更好的性能,但仍有显著的改进空间。我们表明,在组合性数据集上表现更好的所有模型不一定在SUGARCREPE++上表现同样出色,这表明仅仅组合性可能不足以理解语义和词汇的改变。鉴于SUGARCREPE++数据集所针对的属性的重要性,它为视觉与语言社区提供了一个新的挑战。

**论文链接**: https://arxiv.org/pdf/2406.11171 



**如果想您想查看常用AI工具的中文文档,可以使用 [www.aidoczh.com](http://www.aidoczh.com),里面有Langchain、Milvus、AutoGen、DSPy等工具的官方文档的中文翻译。**
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 75
  • 76
  • 77
  • 78
  • 79
  • 80
  • 81
  • 82
  • 83
  • 84
  • 85
  • 86
  • 87
  • 88
  • 89
  • 90
  • 91
  • 92
  • 93
  • 94
  • 95
  • 96
  • 97
  • 98
  • 99
  • 100
  • 101
  • 102
  • 103
  • 104
  • 105
  • 106
  • 107
  • 108
  • 109
  • 110
  • 111
  • 112
  • 113
  • 114
  • 115
  • 116
  • 117
  • 118
  • 119
  • 120
  • 121
  • 122
  • 123
  • 124
  • 125
  • 126
  • 127
  • 128
  • 129
  • 130
  • 131
  • 132
  • 133
  • 134
  • 135
  • 136
  • 137
  • 138
  • 139
  • 140
  • 141
  • 142
  • 143
  • 144
  • 145
  • 146
  • 147
  • 148
  • 149
  • 150
  • 151
  • 152
  • 153
  • 154
  • 155
  • 156
  • 157
  • 158
  • 159
  • 160
  • 161
  • 162
  • 163
  • 164
  • 165
  • 166
  • 167
  • 168
  • 169
  • 170
  • 171
  • 172
  • 173
  • 174
  • 175
  • 176
  • 177
  • 178
  • 179
  • 180
  • 181
  • 182
  • 183
  • 184
  • 185
  • 186
  • 187
  • 188
  • 189
  • 190
  • 191
  • 192
  • 193
  • 194
  • 195
  • 196
  • 197
  • 198
  • 199
  • 200
  • 201
  • 202
  • 203
  • 204
  • 205
  • 206
  • 207
  • 208
  • 209
  • 210
  • 211
  • 212
  • 213
  • 214
  • 215
  • 216
  • 217
  • 218
  • 219
  • 220
  • 221
  • 222
  • 223
  • 224
  • 225
  • 226
  • 227
  • 228
  • 229
  • 230
  • 231
  • 232
  • 233
  • 234
  • 235
  • 236
  • 237
  • 238
  • 239
  • 240
  • 241
  • 242
  • 243
  • 244
  • 245
  • 246
  • 247
  • 248
  • 249
  • 250
  • 251
  • 252
  • 253
  • 254
  • 255
  • 256
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/865988
推荐阅读
相关标签
  

闽ICP备14008679号