一键难忘520

这个屌丝很懒，什么也没留下！

热门标签

2024年6月14日Arxiv语言模型相关论文_latent space representations of neural algorithmic

作者：一键难忘520 | 2024-07-22 18:32:12

踩

latent space representations of neural algorithmic reasoners

cs.CL: ProxyLM: 通过代理模型预测多语言任务上的语言模型性能

原标题: ProxyLM: Predicting Language Model Performance on Multilingual Tasks via Proxy Models

作者: David Anugraha, Genta Indra Winata, Chenyue Li, Patrick Amadeus Irawan, En-Shiun Annie Lee

机构: University of Toronto Capital One Institut Teknologi Bandung Ontario Tech University

摘要: 性能预测是一种估计多语言语言模型（LM）性能的方法，可以减少与模型容量和微调数据相关的计算成本。我们的论文介绍了ProxyLM，这是一个可扩展的框架，用于使用代理模型在多语言任务中预测LM的性能。这些代理模型充当替代品，近似于在特定下游自然语言处理（NLP）任务上微调的LM的性能。通过利用代理模型，ProxyLM在任务评估中显著减少了计算开销，即使使用我们最小的代理模型，也实现了高达37.08倍的加速。此外，我们的方法展示了对预训练LM中以前未见过的语言的适应性，在均方根误差（RMSE）衡量下的性能优于现有技术1.89倍。该框架简化了模型选择，实现了高效的部署和迭代LM增强，无需大量计算资源。

论文链接: https://arxiv.org/pdf/2406.09334

cs.CL: 改进自回归训练的动态预言

原标题: Improving Autoregressive Training with Dynamic Oracles

作者: Jianing Yang, Harshine Visvanathan, Yilin Wang, Xinyi Hu, Matthew Gormley

机构: 密歇根大学卡内基梅隆大学哈佛大学

摘要: 许多自然语言处理中的任务可以被视为顺序决策问题，范围从序列标注到文本生成。然而，对于许多任务来说，标准的训练方法，包括最大似然（教师强制）和计划抽样，在训练和推理过程中存在暴露偏差和度量标准不匹配的问题。DAgger提供了一种解决方案来减轻这些问题，但它需要一个特定于度量标准的动态预测算法，而许多常见的度量标准，如基于跨度的F1、ROUGE和BLEU，不存在这样的算法。在本文中，我们开发了这些新颖的动态预测算法，并展示它们对于像基于跨度的F1这样的可分解度量标准保持了DAgger的无悔保证。我们在命名实体识别（NER）、文本摘要和机器翻译（MT）上评估了算法的性能。虽然在我们的MT实验中，DAgger与动态预测算法的结果不太理想，但在NER和文本摘要方面，它优于基线技术。

论文链接: https://arxiv.org/pdf/2406.09393

cs.CL: DiscreteSLU：一个具有自监督离散语音单元的大型语言模型，用于口语理解。

原标题: DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding

作者: Suwon Shon, Kwangyoun Kim, Yi-Te Hsu, Prashant Sridhar, Shinji Watanabe, Karen Livescu

机构: ASAPP, 美国
Carnegie Mellon University, 美国
Toyota Technological Institute at Chicago, 美国

摘要: 预训练的基于文本的大型语言模型（LLM）与语音输入的整合，为各种语音任务的指令跟随能力提供了可能。这种整合需要使用语音编码器、语音适配器和在各种任务上训练过的LLM。我们建议使用离散语音单元（DSU），而不是连续值语音编码器输出，通过语音适配器将其转换为LLM的标记嵌入空间。我们使用自监督语音编码器生成DSU，然后使用k-means聚类算法。所提出的模型在来自已知/未知领域的语音输入上表现出稳健的性能，并具有口语问答中的指令跟随能力。我们还探索了从自监督语音编码器的不同层提取的各种类型的DSU，以及Mel频率倒谱系数（MFCC）。我们的研究结果表明，语音识别任务和数据集对于口语问答任务的指令调整并不重要。

论文链接: https://arxiv.org/pdf/2406.09345

cs.CL: 从自然语言解释中学习以实现通用的实体匹配

原标题: Learning from Natural Language Explanations for Generalizable Entity Matching

作者: Somin Wadhwa, Adit Krishnan, Runhui Wang, Byron C. Wallace, Chris Kong

机构: 东北大学亚马逊

摘要: 实体匹配是将来自不同来源但指向同一实际实体的记录进行链接的任务。过去的研究主要将实体链接视为标准的监督学习问题。然而，监督式实体匹配模型通常在新数据上泛化能力较差，并且收集详尽的标记训练数据往往成本高昂。此外，最近的研究在少样本/零样本环境中采用了大语言模型（LLM）来进行实体匹配任务，利用其通用知识。但是，对于实际的实体匹配任务，LLM在大规模推理方面的代价过高。

作为一种高效的替代方案，我们将实体匹配重新构建为条件生成任务，而不是二元分类。这使我们能够通过自然语言解释将LLM的推理能力转化为更小的实体匹配模型。这种方法取得了强大的性能，尤其是在领域外泛化测试中（10.85% F-1），独立生成方法往往表现不佳。我们进行了消融实验，突出了解释的重要性，无论是对于性能还是模型的鲁棒性。

论文链接: https://arxiv.org/pdf/2406.09330

cs.CL: 通过在词汇空间中进行排名编辑来在语言模型中取消学习敏感信息

原标题: REVS: Unlearning Sensitive Information in Language Models via Rank Editing in the Vocabulary Space

作者: Tomer Ashuach, Martin Tutek, Yonatan Belinkov

机构: 以色列理工学院

摘要: 大语言模型（LLMs）有可能无意中记忆和泄露在训练数据中出现的敏感或个人可识别信息（PII），引发隐私问题。目前解决这个问题的方法包括昂贵的数据集清洗，或者通过遗忘和模型编辑来进行模型过滤，但这些方法可能会被提取攻击绕过。我们提出了一种新颖的模型编辑方法REVS，用于从LLMs中遗忘敏感信息。REVS识别并修改与每个敏感信息相关的一小部分神经元。通过将这些神经元投影到词汇空间（解嵌入），我们确定了生成该信息的组成部分。然后，我们根据解嵌入矩阵的伪逆计算模型编辑，并将其应用于降低目标敏感数据的生成。为了对我们的方法进行充分评估，我们策划了两个数据集：一个是由GPT-J固有记忆的电子邮件数据集，另一个是我们调整模型以记忆的合成社会安全号码数据集。与其他最先进的模型编辑方法相比，REVS在消除敏感信息和抵御提取攻击方面表现出卓越的性能，同时保持了底层模型的完整性。代码和演示笔记本可在此https URL找到。

论文链接: https://arxiv.org/pdf/2406.09325

Github: https://technion-cs-nlp.github.io/REVS

cs.CL: AlignMMBench: 在大型视觉语言模型中评估中文多模态对齐

原标题: AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models

作者: Yuhang Wu, Wenmeng Yu, Yean Cheng, Yan Wang, Xiaohan Zhang, Jiazheng Xu, Ming Ding, Yuxiao Dong

机构: 清华大学 Zhipu AI 北京大学

摘要: 评估大型视觉语言模型（VLMs）的对齐能力对于确定它们作为有用助手的有效性至关重要。然而，现有的基准主要集中在使用非语言方法（如是非和多项选择题）评估基本能力。在本文中，我们通过引入AlignMMBench来填补这一空白，这是一个专门为新兴的中文VLMs设计的全面对齐基准。该基准从现实场景和中国互联网来源中精心策划，涵盖了三个类别的十三个具体任务，并包括单轮和多轮对话场景。通过采用提示重写策略，AlignMMBench包含了1054个图像和4978个问答对。为了促进评估流程，我们提出了CritiqueVLM，一个超越GPT-4评估能力的规则校准评估器。最后，我们报告了代表性VLMs在AlignMMBench上的性能，以深入了解不同VLM架构的能力和限制。所有评估代码和数据都可以在此https URL上获得。

论文链接: https://arxiv.org/pdf/2406.09295

Github: https://alignmmbench.github.io

cs.CL: Transformer遇见神经算法推理器

原标题: Transformers meet Neural Algorithmic Reasoners

作者: Wilfried Bounsi, Borja Ibarz, Andrew Dudzik, Jessica B. Hamrick, Larisa Markeeva, Alex Vitvitskyi, Razvan Pascanu, Petar Veličković

机构: Google DeepMind

摘要: Transformer通过其简单而有效的架构改变了机器学习。在互联网上对大规模文本数据集进行预训练，使得Transformer在自然语言理解（NLU）任务中具有无与伦比的泛化能力。然而，当面临算法推理形式的任务时，这种语言模型在计算必须精确且稳健的情况下仍然脆弱。为了解决这个限制，我们提出了一种新颖的方法，将Transformer的语言理解能力与基于图神经网络（GNN）的神经算法推理器（NAR）的稳健性相结合。当以图形形式指定时，这样的NAR被证明对于算法任务是有效的通用求解器。为了使它们的嵌入对Transformer可访问，我们提出了一种混合架构，采用两阶段训练过程，允许语言模型中的标记与来自NAR的节点嵌入进行交叉关注。我们在CLRS-Text上评估了我们的结果TransNAR模型，这是CLRS-30基准的基于文本的版本，并展示了在算法推理方面相比仅使用Transformer模型的显著增益，无论是在分布内还是分布外。

论文链接: https://arxiv.org/pdf/2406.09308

cs.CL: 关于异构数据源对语音转文本基础模型的影响

原标题: On the Effects of Heterogeneous Data Sources on Speech-to-Text Foundation Models

作者: Jinchuan Tian, Yifan Peng, William Chen, Kwanghee Choi, Karen Livescu, Shinji Watanabe

机构: Carnegie Mellon University, Toyota Technological Institute at Chicago

摘要: Open Whisper风格的语音模型（OWSM）系列是为了在构建先进的语音转文本（S2T）基础模型时实现完全透明而引入的。为此，OWSM模型是在25个公共语音数据集上进行训练的，这些数据集在多个方面都是异构的。在本研究中，我们通过引入OWSM v3.2来推进OWSM系列，该版本通过研究和解决数据异构性的影响来改进之前的模型。我们的研究从对每个数据集的详细分析开始，从中得出两个关键策略：使用代理任务进行数据过滤以提高数据质量，以及使用开放的大语言模型（LLM）来加入标点和真实大小写。在其他所有配置保持不变的情况下，OWSM v3.2在使用更少的训练数据的同时改善了与OWSM v3.1基线的性能。

论文链接: https://arxiv.org/pdf/2406.09282

cs.CL: 理解越狱成功：对大型语言模型中潜在空间动态的研究

原标题: Understanding Jailbreak Success: A Study of Latent Space Dynamics in Large Language Models

作者: Sarah Ball, Frauke Kreuter, Nina Rimsky

摘要: 大型对话式语言模型被训练成拒绝回答有害问题。然而，新兴的越狱技术仍然可以引发不安全的输出，给模型对齐带来了持续的挑战。为了更好地理解不同越狱类型是如何规避安全保障的，本文分析了不同越狱输入上的模型激活情况。我们发现，可以从一类越狱中提取一个越狱向量，该向量可以减轻其他类越狱的效果。这可能表明，不同类型的有效越狱通过类似的内部机制进行操作。我们研究了一种潜在的常见机制，即有害特征抑制，并通过观察有害向量分量提供了其存在的证据。这些发现为开发更强大的越狱对策提供了可行的见解，并为深入了解语言模型中越狱动态奠定了基础。

论文链接: https://arxiv.org/pdf/2406.09289

cs.CL: 解包DPO和PPO：解开从偏好反馈中学习的最佳实践

原标题: Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback

作者: Hamish Ivison, Yizhong Wang, Jiacheng Liu, Zeqiu Wu, Valentina Pyatkin, Nathan Lambert, Noah A. Smith, Yejin Choi, Hannaneh Hajishirzi

机构: Allen Institute for AI University of Washington

摘要: 从偏好反馈中学习已成为提高现代语言模型（LMs）的生成质量和性能的重要步骤。尽管被广泛使用，但偏好学习的应用方式千差万别，使用不同的数据、学习算法和评估方法，使得解开每个方面的影响变得困难。在这项工作中，我们确定了偏好学习的四个核心方面：偏好数据、学习算法、奖励模型和策略训练提示，并系统地研究了这些组成部分对下游模型性能的影响，并提出了一个强大的偏好反馈学习方法。我们的研究结果表明，所有方面对性能都很重要，更好的偏好数据可以带来最大的改进，其次是学习算法的选择，改进的奖励模型的使用，最后是使用额外的未标记提示进行策略训练。值得注意的是，在数学和一般领域中，PPO的表现优于DPO，分别提高了2.5%和1.2%。高质量的偏好数据可以使指令遵循和真实性的改进达到8%。尽管在扩大奖励模型时在数学评估中取得了高达5%的显著增益，但我们惊讶地发现其他类别的改进只是微不足道的。
我们公开发布了用于训练（此https URL）和评估（此https URL）我们的模型的代码，以及模型和数据集本身（此https URL）。

论文链接: https://arxiv.org/pdf/2406.09279

Github: https://github.com/hamishivi/EasyLM

cs.CL: 分享问题：在大语言模型中分析跨语言和任务的神经元

原标题: Sharing Matters: Analysing Neurons Across Languages and Tasks in LLMs

作者: Weixuan Wang, Barry Haddow, Wei Peng, Alexandra Birch

机构: 爱丁堡大学华为技术有限公司

摘要: 多语言大型语言模型（LLMs）极大地提高了非英语任务的性能上限。然而，这些LLMs背后的机制尚不清楚。特别感兴趣的是内部表示在语言之间的共享程度。最近关于LLMs的神经元分析的工作主要集中在单语言情况下，而关于多语言情况的有限工作并未考虑任务和语言表示之间的相互作用。在我们的工作中，我们通过将神经元根据它们在特定输入的不同语言中的响应进行分类，将神经元分为四个不同的组别：全共享、部分共享、特定和未激活。这种分类结合了对神经元归因的研究，即神经元对输出的重要性。我们的分析揭示了以下见解：（i）语言共享模式受任务类型的强烈影响，但神经元行为在相同任务的不同输入下发生变化；（ii）全共享神经元在生成正确响应方面起关键作用；（iii）通过增加全共享神经元来提高多语言对齐性可以提高多语言任务的准确性。代码可在此https URL找到。

论文链接: https://arxiv.org/pdf/2406.09265

Github: https://github.com/weixuan-wang123/multilingual-neurons

cs.CL: 使用预训练语言模型的自训练方法，用于文本分类的高效主动学习的样本

原标题: Self-Training for Sample-Efficient Active Learning for Text Classification with Pre-Trained Language Models

作者: Christopher Schröder, Gerhard Heyer

机构: ScaDS.AI Leipzig University

摘要: 主动学习是一种迭代标注过程，用于获取少量标记数据的子集，尽管缺乏标记数据，但可以训练用于文本分类等监督任务的模型。尽管主动学习近年来取得了可观的进展，得益于预训练语言模型的改进，但通常被忽视的未标记数据部分具有未开发的潜力，尽管其数量通常比通常的少量标记数据要大得多。在这里，我们研究了自训练的方法，这是一种半监督的方法，其中使用模型从未标记的数据中获取伪标签，以提高主动学习在文本分类中的效率。我们首先对四种先前的自训练方法进行了广泛的复现，其中一些方法在主动学习或自然语言处理的背景下首次进行评估，然后我们设计了一种新的有效的自训练策略HAST，并在四个文本分类基准上进行了评估。在其中三个数据集上，HAST的分类结果与先前实验相当，并且仅使用了25%的数据，优于复现的自训练方法。

论文链接: https://arxiv.org/pdf/2406.09206

cs.CL: 语言复杂性与语音识别准确性：正字复杂性有害，音韵复杂性无害。

原标题: Language Complexity and Speech Recognition Accuracy: Orthographic Complexity Hurts, Phonological Complexity Doesn’t

作者: Chihiro Taguchi, David Chiang

机构: University of Notre Dame

摘要: 我们研究了哪些语言因素会影响自动语音识别（ASR）模型的性能。我们假设正字法和音韵复杂性都会降低准确性。为了验证这一点，我们对25种语言的15种书写系统进行了多语言自监督预训练模型Wav2Vec2-XLSR-53的微调，并比较了它们的ASR准确性、字素数量、一元字素熵、表意性（书写系统中编码了多少词/语素级别的信息）和音素数量。结果表明，正字法复杂性与低ASR准确性显著相关，而音韵复杂性则没有显著相关性。

论文链接: https://arxiv.org/pdf/2406.09202

cs.CL: 阅读控制：通过可读性控制的指导学习个性化文本生成

原标题: ReadCtrl: Personalizing text generation with readability-controlled instruction learning

作者: Hieu Tran, Zonghai Yao, Lingxi Li, Hong Yu

机构: 马萨诸塞大学阿默斯特分校信息与计算机科学学院、马萨诸塞大学医学院、马萨诸塞大学洛厄尔分校计算机与信息科学学院、V A Bedford Health Care

摘要: 内容生成以用户可读性为条件的个性化应用是很重要的。在大语言模型（LLMs）时代，基于LLMs的可读性控制文本生成变得越来越重要。本文介绍了一种名为“可读性控制指令学习（ReadCtrl）”的新方法，旨在通过指令调整LLMs以适应用户的可读性水平。与传统方法不同，传统方法主要集中在通常被分类为高、中、低或专家和非专业人士水平的分类可读性调整上，但成功有限。ReadCtrl引入了一种动态框架，使LLMs能够在各种（接近连续级别）复杂性水平上生成内容，从而增强了它们在不同应用中的适用性。我们的结果表明，ReadCtrl-Mistral-7B模型在人工评估中显著优于强基线模型，如GPT-4和Claude-3，与GPT-4相比，胜率为52.1%:35.7%。此外，Read-Ctrl在自动评估中显示出显著的改进，如更好的可读性指标（如FOG，FKGL）和生成质量指标（如BLEU，SARI，SummaC-Factuality，UniEval-Consistency和Coherence）。这些结果突显了Read-Ctrl在使用LLMs进行个性化内容生成方面的有效性和坚韧性，能够产生与目标可读性水平密切相关的高质量、上下文适宜的输出，标志着个性化内容生成在LLMs的应用中的重大进展。

论文链接: https://arxiv.org/pdf/2406.09205

cs.CL: 正交性和各向同性在自监督语音表示中的说话者和语音信息

原标题: Orthogonality and isotropy of speaker and phonetic information in self-supervised speech representations

作者: Mukhtar Mohamed, Oli Danyi Liu, Hao Tang, Sharon Goldwater

机构: 爱丁堡大学

摘要: 自我监督的语音表示可以极大地改善下游的语音技术，然而使它们有用的特性仍然不太清楚。有两个与表示空间的几何性质相关的候选特性被假设与下游任务的相关性较好：（1）由说话者质心和音素质心所张成的子空间之间的正交度，以及（2）空间的各向同性，即所有维度的有效利用程度。为了研究它们，我们引入了一种新的度量方法，累积残差方差（CRV），可以用来评估这两个特性。通过使用线性分类器来探测六种不同的自我监督模型和两个未经训练的基准模型的说话者和音素识别表示，我们询问正交度和各向同性是否与线性探测准确性相关。我们发现这两个度量都与音素探测准确性相关，尽管我们对各向同性的结果更加微妙。

论文链接: https://arxiv.org/pdf/2406.09200

cs.CL: LASER: 通过对齐自监督表示学习语音，以改进与内容相关的任务。

原标题: LASER: Learning by Aligning Self-supervised Representations of Speech for Improving Content-related Tasks

作者: Amit Meghanani, Thomas Hain

机构: 谢菲尔德大学

摘要: 自监督学习（SSL）的语音模型被广泛用于全栈语音处理。然而，已经观察到使用无标签语音来改进基于SSL的语音表示以进行内容相关任务是具有挑战性和计算成本高昂的。最近，已经尝试通过成本效益的自监督微调（SSFT）方法来解决这个问题。在这个方向上继续前进，提出了一种名为“LASER: Learning by Aligning Self-supervised Representations”的成本效益的SSFT方法。LASER基于带有时间正则化项的软DTW对齐损失。在SUPERB基准上使用HuBERT和WavLM模型进行实验，并对两个内容相关任务进行评估：自动语音识别（ASR）和音素识别（PR）。仅在单个GPU上进行不到3小时的微调，观察到HuBERT的相对改进为3.7%和8.2%，WavLM的相对改进为4.1%和11.7%，分别用于ASR和PR任务。

论文链接: https://arxiv.org/pdf/2406.09153

cs.CL: 时间的考验：一个用于评估大语言模型在时间推理上的基准测试

原标题: Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning

作者: Bahare Fatemi, Mehran Kazemi, Anton Tsitsulin, Karishma Malkan, Jinyeong Yim, John Palowitch, Sungyong Seo, Jonathan Halcrow, Bryan Perozzi

机构: Google Research Google DeepMind

摘要: 大语言模型（LLMs）展示了出色的推理能力，但它们仍然容易出错，特别是在涉及复杂时间逻辑的时间推理任务中。现有研究已经使用多样化的数据集和基准测试来探索LLM在时间推理方面的性能。然而，这些研究通常依赖于LLMs在预训练期间可能遇到的真实世界数据，或者使用可能无意中引入事实不一致性的匿名化技术。在这项工作中，我们通过引入新颖的合成数据集来解决这些限制，这些数据集专门设计用于评估LLM在各种场景中的时间推理能力。这些数据集中的问题类型的多样性使得可以系统地研究问题结构、大小、问题类型、事实顺序和其他因素对LLM性能的影响。我们的研究结果为当前LLM在时间推理任务中的优势和劣势提供了有价值的见解。为了促进这一领域的进一步研究，我们正在开源我们实验中使用的数据集和评估框架：链接。

论文链接: https://arxiv.org/pdf/2406.09170

其他链接: https://huggingface.co/datasets/baharef/ToT

cs.CL: 研究仅基于平行数据训练的大语言模型的翻译能力。

原标题: Investigating the translation capabilities of Large Language Models trained on parallel data only

作者: Javier García Gilabert, Carlos Escolano, Aleix Sant Savall, Francesca De Luca Fornaciari, Audrey Mash, Xixian Liao, Maite Melero

机构: 巴塞罗那超级计算中心

摘要: 近年来，大语言模型（LLMs）在自然语言处理（NLP）任务中展现出了出色的能力，包括机器翻译。然而，以往的方法主要依赖于迭代过程，如指令微调或持续预训练，未探索仅使用平行数据训练LLMs的挑战。在这项工作中，我们介绍了PLUME（Parallel Language Model），这是一个由三个2B LLMs组成的集合，其词汇量大小不同（32k、128k和256k），专门在以加泰罗尼亚语为中心的平行示例上进行训练。这些模型在16个监督翻译方向和56个零样本方向上的表现与以前的编码器-解码器架构相当。利用这组模型，我们对LLMs的翻译能力进行了彻底的调查，探索了它们的性能、提示的不同元素的影响以及它们的跨语言表示空间。

论文链接: https://arxiv.org/pdf/2406.09140

cs.CL: DefAn：用于LLMs幻觉评估的明确答案数据集

原标题: DefAn: Definitive Answer Dataset for LLMs Hallucination Evaluation

作者: A B M Ashikur Rahman, Saeed Anwar, Muhammad Usman, Ajmal Mian

机构: KFUPM The University of Western Australia

摘要: 大语言模型（LLMs）展示了令人瞩目的能力，彻底改变了人工智能在日常生活应用中的整合。然而，它们容易产生幻觉，生成与已知事实相矛盾的主张，偏离提示，并在多次呈现相同提示时产生不一致的回应。由于缺乏全面且易于评估的基准数据集，解决这些问题具有挑战性。大多数现有数据集都很小，并依赖于多项选择题，这对于评估LLMs的生成能力是不足够的。为了衡量LLMs中的幻觉，本文介绍了一个全面的基准数据集，包括八个领域的75,000多个提示。这些提示旨在引出明确、简洁和信息丰富的答案。数据集分为两个部分：一个公开可用于测试和评估LLMs性能，一个隐藏的部分用于对比各种LLMs的基准测试。在我们的实验中，我们测试了六个LLMs-GPT-3.5、LLama 2、LLama 3、Gemini、Mixtral和Zephyr-结果显示公开数据集中的事实幻觉整体范围为59%到82%，隐藏基准测试中为57%到76%。公开数据集中的提示不对齐幻觉范围为6%到95%，隐藏数据集中为17%到94%。平均一致性分别为21%到61%和22%到63%。领域分析显示，当要求提供具体的数字信息时，LLMs的性能显著下降，而在人物、地点和日期查询方面表现中等。我们的数据集证明了其功效，并作为LLMs性能评估的全面基准。我们的数据集和LLMs的回应可在\href{this https URL}{this https URL}上获得。

论文链接: https://arxiv.org/pdf/2406.09155

Github: https://github.com/ashikiut/DefAn

cs.CL: 利用明确的推理来集成常识增强对话模型中的推理

原标题: Leveraging Explicit Reasoning for Inference Integration in Commonsense-Augmented Dialogue Models

作者: Sarah E. Finch, Jinho D. Choi

机构: 埃默里大学

摘要: 开放领域的对话系统需要掌握社交常识，以便有效地理解和回应人类用户。已经提出了增强常识的对话模型，旨在通过对话背景推断常识知识，以提高回应质量。然而，现有的增强常识对话方法依赖于隐式推理，在回应生成过程中整合常识推断。在本研究中，我们探讨了显式推理与隐式推理在对话回应生成中对常识的影响。我们的研究结果表明，将常识推理分为显式步骤，用于生成、选择和整合回应中的常识，可以改善对话交互的自然性、参与度、特定性和整体质量。对这些发现的后续分析揭示了不同类型常识在生成回应中的有效性以及通过显式推理增强常识整合的特定回应特征。我们的工作通过在增强常识回应生成方面实现了最新的技术进展，推动了开放领域对话研究的发展。

论文链接: https://arxiv.org/pdf/2406.09138

cs.CL: 偏好链优化：改进大语言模型中的思维链推理

原标题: Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs

作者: Xuan Zhang, Chao Du, Tianyu Pang, Qian Liu, Wei Gao, Min Lin

机构: 新加坡管理大学计算与信息系统学院海洋人工智能实验室

摘要: 最近链式思维（CoT）解码的发展使得大型语言模型（LLMs）能够为复杂问题解决生成明确的逻辑推理路径。然而，研究表明这些路径并不总是有意识和最优的。思维树（ToT）方法采用树搜索来广泛探索推理空间，并找到CoT解码可能忽视的更好的推理路径。然而，这种思考是以显著增加的推理复杂性为代价的。在这项工作中，我们证明了通过利用ToT构建的搜索树对LLMs进行微调，使得CoT能够实现类似或更好的性能，从而避免了重大的推理负担。这是通过链式偏好优化（CPO）实现的，其中LLMs通过树搜索过程中的内在偏好信息来微调CoT推理路径的每一步与ToT的路径对齐。广泛的实验结果表明，CPO显著提高了LLM在解决各种复杂问题（包括问题回答、事实验证和算术推理）中的性能，证明了其有效性。我们的代码可以在此https URL上获得。

论文链接: https://arxiv.org/pdf/2406.09136

Github: https://github.com/sail-sg/CPO

cs.CL: RH-SQL: 为文本到SQL提供了精细的模式和难度提示。

原标题: RH-SQL: Refined Schema and Hardness Prompt for Text-to-SQL

作者: Jiawen Yi, Guo Chen, Zixiang Shen

机构: 中南大学

摘要: Text-to-SQL是一种将自然语言查询转换为结构化查询语言SQL的技术。最近引起关注的一种新颖的研究方法是基于SQL查询复杂性的方法，取得了显著的性能改进。然而，现有方法涉及显著的存储和训练成本，这阻碍了它们的实际应用。为了解决这个问题，本文介绍了一种基于精细模式和难度提示的Text-to-SQL方法。通过使用精细模式过滤掉低相关性的模式信息，并通过语言模型（LM）识别查询难度来形成提示，该方法在保持性能的同时减少了存储和训练成本。值得一提的是，这种方法适用于任何序列到序列（seq2seq）的语言模型。我们在Spider数据集上进行的实验，特别是使用大规模语言模型，取得了82.6%的出错率（EX），证明了我们的方法在实际应用中的有效性和更大的适用性。

论文链接: https://arxiv.org/pdf/2406.09133

cs.CL: 链式思维（CoT）提示策略用于医疗错误检测和纠正。

原标题: Chain-of-Though (CoT) prompting strategies for medical error detection and correction

作者: Zhaolong Wu, Abul Hasan, Jinge Wu, Yunsoo Kim, Jason P.Y. Cheung, Teng Zhang, Honghan Wu

机构: 香港大学、伦敦大学学院

摘要: 本文描述了我们在MEDIQA-CORR 2024共享任务中提交的结果，用于自动检测和纠正临床笔记中的医疗错误。我们使用大型语言模型（LLM）对少样本的上下文学习（ICL）方法进行了三种改进，包括思维链（CoT）和原因提示。在第一种方法中，我们手动分析了训练和验证数据集的子集，通过检查临床笔记中的错误类型来推断出三个CoT提示。在第二种方法中，我们利用训练数据集提示LLM来推断其正确性或错误性的原因。然后，我们将构建的CoTs和原因与ICL示例相结合，以解决错误检测、跨度识别和错误纠正的任务。最后，我们使用基于规则的集成方法结合了这两种方法。在这三个子任务中，我们的集成方法在子任务1和2中排名第3，在子任务3中排名第7，超过了所有提交的结果。

论文链接: https://arxiv.org/pdf/2406.09103

cs.CL: CoastTerm：一种用于沿海科学文献中多学科术语提取的语料库

原标题: CoastTerm: a Corpus for Multidisciplinary Term Extraction in Coastal Scientific Literature

作者: Julien Delaunay, Hanh Thi Hong Tran, Carlos-Emiliano González-Gallardo, Georgeta Bordea, Mathilde Ducos, Nicolas Sidere, Antoine Doucet, Senja Pollak, Olivier De Viron

机构: 拉罗谢尔大学 LI3i、拉罗谢尔大学LIENSs、Jožef Stefan国际研究生院、Jožef Stefan研究所

摘要: 气候变化对沿海地区的影响日益增长，特别是对活跃但脆弱的地区，需要各方利益相关者和学科之间的合作，制定有效的环境保护政策。我们引入了一个新颖的专门语料库，包括来自410篇科学摘要的2,491个句子，涉及沿海地区的自动术语提取（ATE）和分类（ATC）任务。受ARDI框架的启发，该框架专注于识别参与者、资源、动态和相互作用，我们利用单语和多语转换器模型自动提取领域术语及其在沿海系统运行中的不同角色。评估结果表明，自动术语提取的F1得分约为80％，提取术语及其标签的F1得分为70％。这些发现是有希望的，并标志着朝着建立一个专门的沿海地区知识库的发展迈出了初步的一步。

论文链接: https://arxiv.org/pdf/2406.09128

cs.CL: SciKnowEval: 评估大型语言模型的多层次科学知识

原标题: SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models

作者: Kehua Feng, Keyan Ding, Weijie Wang, Xiang Zhuang, Zeyuan Wang, Ming Qin, Yu Zhao, Jianhua Yao, Qiang Zhang, Huajun Chen

机构: 浙江大学、腾讯AI实验室

摘要: 大语言模型（LLMs）在科学研究中的广泛应用需要先进的基准来全面评估它们对科学知识的理解和应用能力。为了满足这一需求，我们引入了SciKnowEval基准，这是一个新颖的框架，系统地评估LLMs在科学知识的五个不同层次上的能力：广泛学习、认真探究、深入思考、清晰辨别和勤奋实践。这些层次旨在评估LLMs在科学知识的广度和深度方面的能力，包括知识覆盖范围、探究和探索能力、反思和推理能力、伦理和安全考虑以及实践熟练度。具体而言，我们以生物学和化学为SciKnowEval的两个实例，并构建了一个包含50,000个多层次科学问题和解决方案的数据集。通过利用这个数据集，我们使用零样本和少样本提示策略对20个领先的开源和专有LLMs进行基准测试。结果显示，尽管取得了最先进的性能，专有LLMs在解决科学计算和应用方面仍有相当大的改进空间。我们预计SciKnowEval将为科学研究和发现中的LLMs建立一个全面的基准标准，并促进将科学知识与强大的安全意识相结合的LLMs的发展。数据集和代码可在此https URL公开获取。

论文链接: https://arxiv.org/pdf/2406.09098

Github: https://github.com/hicai-zju/sciknoweval

cs.CL: 3M：游戏事件检测的多模态多任务多教师学习

原标题: 3M: Multi-modal Multi-task Multi-teacher Learning for Game Event Detection

作者: Thye Shan Ng, Feiqi Cao, Soyeon Caren Han

机构: 西澳大利亚大学悉尼大学墨尔本大学

摘要: 电子竞技迅速成为全球现象，通过像YouTube这样的平台吸引了越来越多的观众。由于游戏本身的复杂性质，对于新手来说理解比赛的内容是具有挑战性的。在线聊天的混乱性、游戏评论员的快速语速以及游戏特定的用户界面进一步增加了用户理解游戏玩法的难度。为了克服这些挑战，关键是整合来自平台的多模态信息并理解比赛。本文介绍了一个新的基于多教师的多模态游戏事件检测框架，其最终目标是构建一个全面的框架，增强对正在进行的比赛情况的理解。虽然传统的多模态模型通常优先通过并行训练来对齐多模态数据以实现统一目标，但我们的框架利用了在不同任务上独立训练的多个教师来完成游戏事件检测。实验证明了所提出的多教师多模态框架的有效性。

论文链接: https://arxiv.org/pdf/2406.09076

cs.CL: 使用对比学习对文本生成建模比较逻辑关系

原标题: Modeling Comparative Logical Relation with Contrastive Learning for Text Generation

作者: Yuhao Dan, Junfeng Tian, Jie Zhou, Ming Yan, Ji Zhang, Qin Chen, Liang He

机构: 东华师范大学人工智能教育实验室、华东师范大学人工智能教育研究院、华东师范大学计算机科学与技术学院、小红书公司、阿里巴巴集团

摘要: 数据到文本生成（D2T）是一个经典的自然语言生成问题，旨在为结构化输入数据（例如表格）生成流畅的描述。现有的D2T工作主要关注实体之间的表面关联关系，而忽略了深层次的比较逻辑关系，例如在某个方面A比B更好，并附带相应的意见，这在我们的日常生活中非常常见。在本文中，我们介绍了一个名为比较逻辑关系生成（CLRG）的新的D2T任务。此外，我们提出了一种基于比较逻辑（CoLo）的文本生成方法，该方法通过对比学习生成遵循特定比较逻辑关系的文本。具体而言，我们首先通过对实体、方面和意见进行细粒度扰动构建各种正负样本。然后，我们在编码器层进行对比学习，以更好地理解比较逻辑关系，并将其整合到解码器层中，以指导模型正确生成关系。鉴于数据稀缺问题，我们构建了一个中文比较逻辑关系数据集（CLRD），该数据集是一个高质量的人工标注数据集，对于具有多个实体描述和其比较逻辑关系注释的文本生成具有挑战性。大量实验证明，我们的方法在自动评估和人工评估中都取得了令人印象深刻的性能。

论文链接: https://arxiv.org/pdf/2406.09095

cs.CL: 活在当下：大语言模型能理解同时推理吗？

原标题: Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning?

作者: Zhaochen Su, Juntao Li, Jun Zhang, Tong Zhu, Xiaoye Qu, Pan Zhou, Yan Bowen, Yu Cheng, Min zhang

机构: 苏州大学计算机科学与技术学院，中国；上海人工智能实验室，华中科技大学，清华大学，香港中文大学

摘要: 时间推理对于大语言模型（LLMs）来理解世界至关重要。当前的时间推理数据集仅限于关于单个或孤立事件的问题，无法反映涉及并发性和复杂时间相互关联的现实时间特征。在本文中，我们介绍了CoTempQA，一个包含四个共时问答（QA）场景（相等、重叠、期间、混合）的综合共时问答基准，共有4,748个样本，用于评估LLMs的共时理解和推理能力。我们的广泛实验揭示了当前LLMs性能与人类级别推理在CoTempQA任务上存在显著差距。即使使用了思维链（CoT）方法来增强模型，模型在我们的任务中仍然难以应对。在我们的初步探索中，我们发现数学推理在处理共时事件中起着重要作用，并提出了一种从数学角度提升LLMs共时推理的策略。我们希望我们的CoTempQA数据集能够鼓励进一步改进LLMs的共时推理能力。我们的代码可以在此https URL找到。

论文链接: https://arxiv.org/pdf/2406.09072

Github: https://github.com/zhaochen0110/Cotempqa

cs.CL: MiLoRA: 利用次要的奇异分量进行参数高效的大语言模型微调

原标题: MiLoRA: Harnessing Minor Singular Components for Parameter-Efficient LLM Finetuning

作者: Hanqing Wang, Zeguan Xiao, Yixia Li, Shuo Wang, Guanhua Chen, Yun Chen

机构: 上海财经大学南方科技大学清华大学

摘要: 高效微调大型语言模型（LLMs）旨在以较低的计算和内存成本调整LLMs。之前基于LoRA的方法使用高斯分布和零值初始化低秩矩阵，同时保持原始权重矩阵不变。然而，在未引导的子空间中优化的可训练模型参数可能会干扰预训练权重矩阵的良好学习子空间。在本文中，我们提出了MiLoRA，一种简单而有效的LLM微调方法，它只更新权重矩阵的次要奇异分量，同时保持主要奇异分量不变。观察到次要矩阵对应于噪声或长尾信息，而主要矩阵包含重要知识。MiLoRA在与主要矩阵正交的子空间内初始化低秩矩阵，因此预训练知识有望得到很好的保留。在微调过程中，MiLoRA充分利用较少优化的子空间来学习微调数据集。对常识推理、数学推理和指令遵循基准的大量实验表明了我们方法的优越性能。

论文链接: https://arxiv.org/pdf/2406.09044

cs.CL: CUDRT：对人类与大语言模型生成的文本进行检测的基准测试

原标题: CUDRT: Benchmarking the Detection of Human vs. Large Language Models Generated Texts

作者: Zhen Tao, Zhiyu Li, Dinghao Xi, Wei Xu

机构: 中国人民大学信息学院上海高级算法研究所上海财经大学数字经济系

摘要: 大语言模型（LLMs）的普及显著提升了各行各业的文本生成能力。然而，这些模型生成类似人类的文本的能力在区分人类和AI作者方面面临着重大挑战。尽管现有的AI生成文本检测器的有效性已被证明，但它们的发展受到了缺乏全面、公开可用的基准的限制。当前的基准仅限于特定场景，如问答和文本润色，并且主要关注英文文本，未能捕捉到LLMs的多样应用和语言细微差别。为了解决这些限制，本文构建了一个全面的中英双语基准，以评估主流的AI生成文本检测器。我们将LLM文本生成分为五个不同的操作：创建、更新、删除、重写和翻译（CUDRT），涵盖了当前所有LLMs的活动。我们还建立了一个强大的基准评估框架，以支持可扩展和可重复的实验。针对每个CUDRT类别，我们开发了大量的数据集，以全面评估检测器的性能。通过使用最新的针对每种语言的主流LLMs，我们的数据集提供了一个全面的评估环境。广泛的实验结果为优化AI生成文本检测器提供了关键见解，并提出了改进检测准确性和在各种场景中的泛化能力的未来研究方向。

论文链接: https://arxiv.org/pdf/2406.09056

cs.CL: 语言模型是填字游戏的求解器。

原标题: Language Models are Crossword Solvers

作者: Soumadeep Saha, Sutanoya Chakraborty, Saptarshi Saha, Utpal Garain

机构: 印度统计研究所

摘要: 纵横字谜是一种需要解谜者展示对自然语言理解、文字游戏、推理和世界知识的高度熟练度的文字谜题形式，同时还需要遵守字符和长度的限制。在本文中，我们使用大语言模型（LLMs）来解决解决纵横字谜的挑战。我们证明了当前最先进的语言模型在解密隐晦的纵横字谜线索方面表现出显著的能力，并在相关基准测试中比之前报告的最先进结果提高了2-3倍。我们还开发了一种搜索算法，基于这种性能来解决首次使用LLMs解决完整纵横字谜网格的问题，在纽约时报的纵横字谜上达到了93%的准确率。与以前在这个领域的研究得出的结论相反，即LLMs在人类专家表现方面明显落后，我们的研究表明这个差距要小得多。

论文链接: https://arxiv.org/pdf/2406.09043

cs.CL: ME-Switch：一种用于大型语言模型的内存高效的专家切换框架

原标题: ME-Switch: A Memory-Efficient Expert Switching Framework for Large Language Models

作者: Jing Liu, Ruihao Gong, Mingyang Zhang, Yefei He, Jianfei Cai, Bohan Zhuang

机构: Monash University SenseTime Research Beihang University Zhejiang University

摘要: 典型的LLM开发过程包括在大规模数据上进行预训练通用基础模型，然后在特定任务数据上进行微调，以创建专业的专家模型。为了提供这些专家模型，存在一些挑战，因为将所有专家模型加载到设备上是不切实际的，并且频繁地根据用户请求在专家模型之间切换会产生大量的I/O开销，增加延迟和开销。以前的方法将专家模型的权重分解为预训练模型的权重和残差增量权重，然后对增量权重进行量化以减小模型大小。然而，这些方法在极低的位宽下往往会导致显著的量化误差，并且假设用户请求的适当模型事先已知，这是不切实际的。为了解决这些问题，我们引入了ME-Switch，一种用于LLM服务的内存高效的专家模型切换框架。ME-Switch使用混合精度量化，选择性地将增量权重的非显著输入通道量化为极低的位数，同时保持显著通道的完整性，显著减少存储需求并保持性能。此外，我们开发了一种路由方法，通过将模型选择问题转化为领域分类问题，高效地将用户查询引导到最合适的专家模型。大量实验证明了ME-Switch在内存效率和路由性能方面的优势。例如，当为Mistral-7B系列的三个模型提供服务时，ME-Switch将模型大小减小了1.74倍，同时在指令、数学推理和代码生成任务上几乎没有性能损失。此外，ME-Switch可以在单个NVIDIA A100 GPU上高效地提供Mistral-7B系列的16个模型的服务。

论文链接: https://arxiv.org/pdf/2406.09041

cs.CL: 贝叶斯统计建模与来自大语言模型的预测变量

原标题: Bayesian Statistical Modeling with Predictors from LLMs

作者: Michael Franke, Polina Tsvilodub, Fausto Carcassi

机构: University of Tübingen University of Amsterdam

摘要: 现代大型语言模型（LLMs）在各种基准任务上展现出令人印象深刻的性能，并越来越多地被用作更大型应用的组成部分，其中基于LLM的预测作为人类判断或决策的代理。这引发了关于LLM衍生信息的人类相似性、与人类直觉的一致性以及LLM是否可能被视为（部分）解释人类认知或语言使用的模型的问题。为了更好地探讨这些问题，我们在这里从贝叶斯统计建模的角度研究了LLM对多项选择决策任务的人类相似性预测。通过使用关于语用语言使用的强制选择实验的人类数据，我们发现LLM无法捕捉到项目级别上的人类数据的变异性。我们提出了不同的方法，从LLM中获取关于聚合、条件级别数据的完整分布预测，并发现某些方法可以得到与人类数据相适应的结果，但并非所有方法都能达到这个目标。这些结果表明，对LLM性能的评估在很大程度上取决于看似微小的方法选择，并且LLM最多只能作为聚合、条件级别上人类行为的预测器，而它们并不是为此目的而设计或通常用于进行预测。

论文链接: https://arxiv.org/pdf/2406.09012

cs.CL: 大语言模型阅读茶叶：使用大语言模型自动评估主题模型

原标题: LLM Reading Tea Leaves: Automatically Evaluating Topic Models with Large Language Models

作者: Xiaohao Yang, He Zhao, Dinh Phung, Wray Buntine, Lan Du

机构: 莫纳什大学

摘要: 主题建模一直是一种广泛使用的无监督文本分析工具。然而，对主题模型的全面评估仍然具有挑战性。现有的评估方法要么在不同模型之间缺乏可比性（例如，困惑度），要么只关注模型的某个特定方面（例如，主题质量或文档表示质量），这对于反映整体模型性能是不足够的。在本文中，我们提出了一种名为WALM（Words Agreement with Language Model）的新的主题建模评估方法，它综合考虑了文档表示和主题的语义质量，并联合利用了大型语言模型（LLMs）的能力。通过涉及不同类型的主题模型的大量实验，WALM被证明与人类判断一致，并可以作为现有评估方法的补充，为主题建模带来新的视角。我们的软件包将在此https URL上提供，可以与许多广泛使用的主题模型集成。

论文链接: https://arxiv.org/pdf/2406.09008

Github: https://github.com/Xiaohao-Yang/Topic_Model_Evaluation

cs.CL: 英日同声传译中的词序：基于块状单调翻译的分析与评估

原标题: Word Order in English-Japanese Simultaneous Interpretation: Analyses and Evaluation using Chunk-wise Monotonic Translation

作者: Kosuke Doi, Yuka Ko, Mana Makinae, Katsuhito Sudoh, Satoshi Nakamura

机构: Nara Institute of Science and Technology, Nara Women’s University, The Chinese University of Hong Kong, Shenzhen

摘要: 本文分析了在同传（SI）中遵循源语言词序的单调翻译的特点。词序差异是同传中的最大挑战之一，特别是对于英语和日语等结构差异显著的语言对。我们使用NAIST英日单调翻译评估数据集分析了单调翻译的特点，并发现了一些在英日同传中使单调翻译困难的语法结构。我们进一步通过评估现有的语音翻译（ST）和同时语音翻译（simulST）模型在NAIST英日单调翻译评估数据集以及现有测试集上的输出来研究单调翻译的特点。结果表明，现有的基于同传的测试集低估了模型的性能。我们还发现，基于单调翻译的数据集将更好地评估simulST模型，而使用离线测试集评估simulST模型会低估模型的性能。

论文链接: https://arxiv.org/pdf/2406.08940

cs.CL: 探索多语种未知说话者情感识别：利用多任务学习中的共同关注线索

原标题: Exploring Multilingual Unseen Speaker Emotion Recognition: Leveraging Co-Attention Cues in Multitask Learning

作者: Arnav Goel, Medha Hira, Anubha Gupta

机构: Indraprastha Institute of Information Technology Delhi (IIIT-D)、MIRAE AI Systems Pvt. Ltd.

摘要: 现代深度学习技术的出现推动了语音情感识别（SER）领域的进步。然而，该领域中大多数现有系统在处理训练过程中未见过的说话者时无法泛化。本研究专注于处理多语言SER的挑战，特别是处理未见过的说话者。我们引入了一种新颖的架构CAMuLeNet，利用共同注意力融合和多任务学习来解决这个问题。此外，我们使用10折留一说话者外交叉验证在五个现有的多语言基准数据集（IEMOCAP、RAVDESS、CREMA-D、EmoDB和CaFE）上对Whisper、HuBERT、Wav2Vec2.0和WavLM的预训练编码器进行了基准测试，并发布了一个用于Hindi语言（BhavVani）的新数据集，用于SER。CAMuLeNet在我们的交叉验证策略下，对于未见过的说话者，平均改进了约8%。

论文链接: https://arxiv.org/pdf/2406.08931

cs.CL: 穿越阴影：揭示现代AI内容检测器的有效干扰方法

原标题: Navigating the Shadows: Unveiling Effective Disturbances for Modern AI Content Detectors

作者: Ying Zhou, Ben He, Le Sun

机构: 中国科学院大学计算机科学与技术学院中国科学院软件研究所

摘要: 随着ChatGPT的推出，大型语言模型（LLMs）引起了全球的关注。在文章写作领域，LLMs得到了广泛的应用，引发了与知识产权保护、个人隐私和学术诚信相关的担忧。为了应对这一问题，AI文本检测技术应运而生，用于区分人工生成的内容和机器生成的内容。然而，最近的研究表明，这些检测系统往往缺乏鲁棒性，难以有效区分被扰动的文本。目前，在真实世界应用中缺乏对检测性能的系统评估，并且对扰动技术和检测器鲁棒性的全面研究也缺乏。为了填补这一空白，我们的工作在非正式和专业写作中模拟了真实世界的场景，探索了当前检测器的开箱即用性能。此外，我们构建了12种黑盒文本扰动方法，以评估当前检测模型在不同扰动粒度下的鲁棒性。此外，通过对抗学习实验，我们研究了扰动数据增强对AI文本检测器鲁棒性的影响。我们已经在此https URL上发布了我们的代码和数据。

论文链接: https://arxiv.org/pdf/2406.08922

Github: https://github.com/zhouying20/ai-text-detector-evaluation

cs.CL: 通过跨团队协作进行多智能体软件开发

原标题: Multi-Agent Software Development through Cross-Team Collaboration

作者: Zhuoyun Du, Chen Qian, Wei Liu, Zihao Xie, Yifei Wang, Yufan Dang, Weize Chen, Cheng Yang

机构: 浙江大学清华大学北京邮电大学

摘要: 最新的大语言模型（LLM）的突破，例如ChatDev，通过多智能体协作在软件开发中引发了深刻的变革。LLM智能体可以像人类一样组成团队进行协作，并遵循瀑布模型，按顺序进行需求分析、开发、审查、测试和其他阶段，以实现自主软件生成。然而，对于一个智能体团队来说，单个开发过程中的每个阶段只产生一种可能的结果。这导致只完成一个开发链，从而失去了在解决方案空间内探索多个潜在决策路径的机会。因此，这可能导致获得次优结果。为了解决这个挑战，我们引入了跨团队协作（CTC），这是一个可扩展的多团队框架，使得协调的团队能够共同提出各种决策，并在跨团队协作环境中进行交流，以实现更优质的内容生成。软件开发中的实验结果显示，与最先进的基准相比，质量有显著提高，突显了我们框架的有效性。故事生成方面的显著改进表明了我们框架在各个领域具有良好的泛化能力。我们预计我们的工作将引导LLM智能体走向跨团队范式，并为其在软件开发等领域的显著增长做出贡献。代码和数据将在此https URL上提供。

论文链接: https://arxiv.org/pdf/2406.08979

Github: https://github.com/OpenBMB/ChatDev

cs.CL: 对于低资源场景下的TTS系统的语言适应性的初步调查

原标题: An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios

作者: Cheng Gong, Erica Cooper, Xin Wang, Chunyu Qiang, Mengzhe Geng, Dan Wells, Longbiao Wang, Jianwu Dang, Marc Tessier, Aidan Pine, Korin Richmond, Junichi Yamagishi

机构: 天津大学中国国立信息学研究所日本加拿大国家研究委员会加拿大爱丁堡大学语音技术研究中心英国
国立信息通信研究所日本

摘要: 自监督学习（SSL）从大规模多语言模型中获得的表示为低资源语言语音任务提供了一个有希望的解决方案。尽管有所进展，但TTS系统中的语言适应仍然是一个悬而未决的问题。本文探讨了ZMM-TTS的语言适应能力，这是我们之前工作中提出的一种基于SSL的多语言TTS系统。我们使用有限的数据以及各种微调配置在12种语言上进行了实验。我们证明了预训练语言和目标语言之间的音素相似性以及语言类别会影响目标语言的适应性能。此外，我们发现微调数据集的大小和说话者数量也会影响适应性。令人惊讶的是，我们还观察到与仅音频数据相比，使用成对数据进行微调并不总是最佳选择。除了语音可懂性，我们的分析还涵盖了说话者相似性、语言识别和预测的MOS。

论文链接: https://arxiv.org/pdf/2406.08911

cs.CL: Delta-CoMe: 使用混合精度进行大型语言模型的无需训练的Delta压缩

原标题: Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models

作者: Bowen Ping, Shuo Wang, Hanqing Wang, Xu Han, Yuzhuang Xu, Yukun Yan, Yun Chen, Baobao Chang, Zhiyuan Liu, Maosong Sun

机构: 北京大学清华大学上海财经大学

摘要: 微调是将大型语言模型（LLMs）适应不同应用的关键过程。在某些情况下，例如多租户服务，部署多个LLMs变得必要以满足复杂需求。最近的研究表明，将微调的LLM分解为基础模型和相应的增量权重，然后使用低秩或低位方法进行压缩以降低成本。在这项工作中，我们观察到现有的低秩和低位压缩方法对于特定任务微调的LLMs（例如用于数学问题的WizardMath）可能会严重损害模型性能。受增量权重中奇异值的长尾分布的启发，我们提出了一种使用混合精度的增量量化方法。该方法对应于较大奇异值的奇异向量采用更高位的表示。我们在各种微调的LLMs上评估了我们的方法，包括数学LLMs，代码LLMs，聊天LLMs，甚至是VLMs。实验结果表明，我们的方法与完整微调的LLMs相比表现出色，明显超过了低秩和低位基准线。此外，我们还展示了我们的方法与各种基础LLMs兼容，例如Llama-2，Llama-3和Mistral，突出了其通用性。

论文链接: https://arxiv.org/pdf/2406.08903

cs.CL: 计划、生成和复杂化：通过易于困难的零样本数据增强来改进低资源对话状态跟踪

原标题: Plan, Generate and Complicate: Improving Low-resource Dialogue State Tracking via Easy-to-Difficult Zero-shot Data Augmentation

作者: Ming Gu, Yan Yang

机构: 华东师范大学

摘要: 数据增强方法一直是提高低资源对话状态跟踪小模型性能的一个有前途的方向。然而，传统方法依赖于预定义的用户目标，并忽视了该任务中数据复杂性的重要性。在本文中，我们提出了EDZ-DA，一种用于低资源对话状态跟踪的易于困难的零样本数据增强框架，它利用大型语言模型自动捕捉不同领域之间的关系，然后生成对话数据。我们还根据领域关系复杂化对话，以增强模型对共指槽跟踪的能力。此外，我们对槽值进行排列，以减轻输出顺序的影响和不完整值生成的问题。实验结果表明，与MultiWOZ上先前的强数据增强基线相比，我们提出的方法具有优势。

论文链接: https://arxiv.org/pdf/2406.08860

cs.CL: 没有观点，就没有感知！！透视感知的医疗答案摘要化

原标题: No perspective, no perception!! Perspective-aware Healthcare Answer Summarization

作者: Gauri Naik, Sharad Chandakacherla, Shweta Yadav, Md. Shad Akhtar

机构: IIIT Delhi University of Illinois at Chicago

摘要: 医疗社区问答（CQA）论坛为寻求各种医疗相关信息的个人提供了一个可访问的平台。人们发现这样的平台适合自我披露、寻求医学意见、找到对他们的医疗状况进行简化解释的答案，并回答其他人的问题。然而，这些论坛上的答案通常多样化且容易偏离主题。读者很难筛选出众多答案并提取有意义的见解，因此对于CQA论坛来说，答案摘要是一项关键任务。虽然已经做出了一些总结社区答案的努力，但大多数努力仅限于开放领域，并忽视了这些答案所提供的不同观点。为了解决这个问题，本文提出了一种新颖的透视特定答案摘要任务。我们确定了医疗相关回答中的各种观点，并构建了一个涵盖所有回答的透视驱动的抽象摘要。为了实现这一目标，我们在我们的PUMA数据集中用6193个透视感知摘要对3167个CQA线程进行了注释。此外，我们提出了PLASMA，一种基于提示的可控摘要模型。为了概括透视特定的条件，我们设计了一个能量控制的损失函数进行优化。我们还利用前缀调谐器来学习医疗透视摘要的复杂性。我们对比了五个基准模型，评估结果表明PLASMA的性能优于其他模型，提升幅度为1.5-21%。我们通过消融实验和定性分析来补充我们的实验。

论文链接: https://arxiv.org/pdf/2406.08881

cs.CL: 构建面向工业级对话助手的零样本槽填充系统的方法

原标题: An Approach to Build Zero-Shot Slot-Filling System for Industry-Grade Conversational Assistants

作者: G P Shrivatsa Bhargav, Sumit Neelam, Udit Sharma, Shajith Ikbal, Dheeraj Sreedhar, Hima Karanam, Sachindra Joshi, Pankaj Dhoolia, Dinesh Garg, Kyle Croutwater, Haode Qi, Eric Wayne, J William Murdock

机构: IBM Research IBM Watson

摘要: 我们提出了一种构建基于大语言模型（LLM）的槽填充系统的方法，用于在服务于各种行业级应用的对话助手中执行对话状态跟踪。该系统的关键要求包括：1）使用较小的模型以满足低延迟的要求，并实现方便和经济高效的云端和客户端部署；2）具备零样本能力，可以在各种领域、槽类型和对话场景中提供服务。我们采用了微调的方法，将预训练的LLM微调为一个槽填充模型，使用特定任务的数据。微调数据经过精心准备，以涵盖模型在各个领域可能面临的各种槽填充任务场景。我们详细介绍了数据准备和模型构建过程，并对实验评估结果进行了详细分析。结果显示，我们提出的槽填充模型构建方法相对于最佳基准线在一个真实基准测试中的F1指标有了6.9%的相对改进，同时将延迟降低了57%。此外，我们准备的数据相对于各种槽类型平均提高了4.2%的F1指标。

论文链接: https://arxiv.org/pdf/2406.08848

cs.CL: ContraSolver: 通过解决内部偏好矛盾来实现语言模型的自我对齐

原标题: ContraSolver: Self-Alignment of Language Models by Resolving Internal Preference Contradictions

作者: Xu Zhang, Xunjian Yin, Xiaojun Wan

机构: 北京大学王选计算机技术研究所

摘要: 尽管在开发大型语言模型（LLMs）方面取得了重大进展，但控制其行为仍然很困难。直接偏好优化（DPO）假设存在一个潜在的奖励函数来评估LLMs的响应。这个假设表明对于相同的输入，不同响应之间存在严格的偏好排序。然而，根据我们的实验观察，LLMs中总是存在偏好的矛盾。在本文中，我们使用自注释构建了不同响应之间的偏好关系图结构，以找到偏好顺序中的矛盾。我们提出了ContraSolver算法，该算法遍历偏好图上的所有边，以确定可能导致矛盾的边。ContraSolver使用最大生成树初始化图，并识别出矛盾的边，优先解决低置信度的偏好，同时保留高置信度的偏好。对四个不同的生成任务的实验结果表明，通过我们完全无监督的自对齐，可以大大提高不同LLMs的性能。此外，通过使用ContraSolver对具有和不具有自对齐的LLMs的偏好图进行分析，我们量化了矛盾的减少，表明解决偏好矛盾对于实现更好的对齐性能至关重要。

论文链接: https://arxiv.org/pdf/2406.08842

cs.CL: 基于多模态深度学习的自然语言处理模型优化研究

原标题: Research on Optimization of Natural Language Processing Model Based on Multimodal Deep Learning

作者: Dan Sun, Yaxin Liang, Yining Yang, Yuhan Ma, Qishi Zhan, Erdi Gao

机构: 华盛顿大学圣路易斯分校

摘要: 该项目旨在研究基于注意机制和多模态数据的图像表示。通过向属性模型添加多个模式层，将图像内容的语义和隐藏层集成在一起。使用Word2Vec方法对词向量进行量化，然后通过词嵌入卷积神经网络进行评估。对两组的实验结果进行了测试。实验结果表明，该方法可以将离散特征转化为连续字符，从而减少特征预处理的复杂性。将Word2Vec和自然语言处理技术集成起来，实现对缺失图像特征的直接评估目标。通过使用卷积神经网络的优秀特征分析特性，提高了图像特征评估模型的鲁棒性。该项目旨在改进现有的图像特征识别方法，并消除评估过程中的主观影响。模拟结果表明，该新方法是可行的，有效地增强了生成表示中的特征。

论文链接: https://arxiv.org/pdf/2406.08838

cs.CL: 使用多任务学习和项目反应理论的语法多样性和错误的自动化作文评分

原标题: Automated Essay Scoring Using Grammatical Variety and Errors with Multi-Task Learning and Item Response Theory

作者: Kosuke Doi, Katsuhito Sudoh, Satoshi Nakamura

机构: 奈良科学技术研究所

摘要: 本研究探讨了语法特征对自动作文评分（AES）的影响。我们将两种语法特征作为AES模型的输入：（1）作家在作文中正确使用的语法项目，以及（2）语法错误的数量。实验结果表明，语法特征提高了预测作文整体得分的AES模型的性能。在整体得分和语法得分的多任务学习中，同时使用语法特征进一步提高了模型性能。我们还展示了使用项目反应理论（IRT）估计的语法能力作为辅助任务标签的模型，其性能与使用人工评分员分配的语法得分相当。此外，我们使用IRT对语法特征进行加权，考虑了语法项目的难度和作家的语法能力。我们发现，根据难度对语法特征进行加权进一步提高了性能。

论文链接: https://arxiv.org/pdf/2406.08817

cs.CL: ChatGPT中的语言偏见：语言模型强化方言歧视

原标题: Linguistic Bias in ChatGPT: Language Models Reinforce Dialect Discrimination

作者: Eve Fleisig, Genevieve Smith, Madeline Bossi, Ishita Rustagi, Xavier Yin, Dan Klein

机构: 加州大学伯克利分校

摘要: 我们展示了一项关于ChatGPT展示的语言偏见的大规模研究，涵盖了英语的十种方言（标准美式英语、标准英式英语以及来自世界各地的八种常用的非“标准”方言）。我们通过母语为每种方言的人提供的文本来激发GPT-3.5 Turbo和GPT-4，并通过详细的语言特征注释和母语人士评估来分析响应。我们发现这些模型默认使用“标准”英语方言；根据母语人士的评估，我们还发现模型对非“标准”方言的响应一致表现出一系列问题：理解能力不足（相比于“标准”方言差10%）、刻板印象（差16%）、贬低内容（差22%）和居高临下的回应（差12%）。我们还发现，如果要求这些模型模仿非“标准”方言的提示的写作风格，它们生成的文本对输入的理解能力较低，并且特别容易出现刻板印象。GPT-4在理解能力、温暖度和友好度方面优于GPT-3.5，但也导致刻板印象显著增加（+17%）。结果表明，GPT-3.5 Turbo和GPT-4在语言上存在歧视，可能加剧非“标准”方言使用者的伤害。

论文链接: https://arxiv.org/pdf/2406.08818

cs.CL: 技能混合：学习优化数据使用以对大型语言模型进行微调

原标题: Mixture-of-Skills: Learning to Optimize Data Usage for Fine-Tuning Large Language Models

作者: Minghao Wu, Thuy-Trang Vu, Lizhen Qu, Gholamreza Haffari

机构: 莫纳什大学

摘要: 大语言模型（LLMs）通常在来自不同来源的多样化和广泛的数据集上进行微调，以开发一系列全面的技能，如写作、推理、聊天、编码等。每种技能都具有独特的特点，这些数据集通常是异构和不平衡的，使得微调过程非常具有挑战性。在确保模型保持整体性能的同时，平衡每种技能的发展需要复杂的技术和仔细的数据集策划。在这项工作中，我们提出了一个通用的、与模型无关的强化学习框架，即技能混合（MoS），它可以在微调过程中自动优化数据使用。该框架通过根据当前学习状态动态调整对不同数据集的关注，确保LLMs的全面技能发展的最佳效果。为了验证MoS的有效性，我们使用三种不同的LLM骨干在两个广泛使用的基准测试中进行了大量实验，并证明MoS显著提高了模型的性能。在MoS的成功基础上，我们提出了MoSpec，一种用于特定任务微调的适应性方法，它利用各种数据集的效用来实现特定目的。我们的工作强调了数据集再平衡的重要性，并将MoS作为一种强大的、通用的解决方案，用于优化LLMs的数据使用在各种目的中的微调。

论文链接: https://arxiv.org/pdf/2406.08811

cs.CL: 在指令调整中深入探索跨语言零样本泛化

原标题: Deep Exploration of Cross-Lingual Zero-Shot Generalization in Instruction Tuning

作者: Janghoon Han, Changho Lee, Joongbo Shin, Stanley Jungkyu Choi, Honglak Lee, Kynghoon Bae

机构: LG AI Research

摘要: 指令调整已经成为一种强大的技术，显著提升了对未见任务的零样本性能。虽然最近的研究通过将指令调整应用于多语言模型来探索跨语言泛化，但以前的研究主要集中在英语上，对非英语任务的探索有限。为了深入探索指令调整中的跨语言泛化，我们分别对两个不同语言的元数据集进行指令调整。随后，我们评估在与训练所用语言不同的语言上对未见任务的性能。为了促进这项调查，我们引入了一个名为"KORANI"（韩语自然指令）的新型非英语元数据集，包括51个韩语基准。此外，我们设计了跨语言模板，以减少跨语言设置中训练和推理之间的语言和指令格式差异。我们的实验结果显示，在英语和韩语中通过跨语言泛化实现了一致的改进，分别比基准提高了平均得分的20.7%和13.6%。值得注意的是，这些改进与单语指令调整所实现的改进相当，并在某些任务中甚至超过了它们。该结果强调了在指令调整过程中，与未见任务的语言一致性相比，跨语言数据获取的重要性。

论文链接: https://arxiv.org/pdf/2406.08796

cs.CL: 结构巧妙：利用不常见的文本编码结构对大型语言模型进行自动越狱攻击

原标题: StructuralSleight: Automated Jailbreak Attacks on Large Language Models Utilizing Uncommon Text-Encoded Structure

作者: Bangxin Li, Hengrui Xing, Chao Huang, Jin Qian, Huangqing Xiao, Linfeng Feng, Cong Tian

机构: 西安电子科技大学南安普敦大学

摘要: 大语言模型（LLMs）广泛应用于自然语言处理，但面临着被恶意利用生成有害内容的破解攻击的风险。现有的破解攻击，包括字符级和上下文级攻击，主要关注的是纯文本的提示，而没有具体探索其结构的重要影响。在本文中，我们重点研究提示结构对破解攻击的贡献。我们引入了一种基于很少使用的尾部结构的新型结构级攻击方法，称为Uncommon Text-Encoded Structure（UTES）。我们广泛研究了12个UTES模板和6种混淆方法，构建了一个名为StructuralSleight的有效自动破解工具，其中包含三种逐步升级的攻击策略：结构攻击、结构和字符/上下文混淆攻击以及完全混淆的结构攻击。对现有的LLMs进行了大量实验，结果显示StructuralSleight明显优于基准方法。特别是，在GPT-4o上的攻击成功率达到94.62％，这是目前最先进技术尚未解决的问题。

论文链接: https://arxiv.org/pdf/2406.08754

cs.CL: StreamBench：朝着对语言智能体的持续改进进行基准测试

原标题: StreamBench: Towards Benchmarking Continuous Improvement of Language Agents

作者: Cheng-Kuang Wu, Zhi Rui Tam, Chieh-Yen Lin, Yun-Nung Chen, Hung-yi Lee

机构: Appier AI Research National Taiwan University

摘要: 最近的研究表明，大语言模型（LLM）智能体能够通过经验改进自己，这是在部署后持续提升的重要能力。然而，现有的基准主要评估它们的固有能力，并不评估它们随时间改进的能力。为了填补这一空白，我们引入了StreamBench，这是一个开创性的基准，旨在评估LLM智能体在输入反馈序列上的持续改进能力。StreamBench模拟了一个在线学习环境，LLM智能体接收连续的反馈流，并迭代地提升性能。此外，我们提出了几种简单而有效的基准方法，用于在StreamBench上改进LLM智能体，并进行了全面的分析，以确定对成功的流式策略做出贡献的关键组成部分。我们的工作为开发LLM智能体的有效在线学习策略奠定了基础，为流式场景中更具适应性的AI系统铺平了道路。

论文链接: https://arxiv.org/pdf/2406.08747

cs.CL: AI-Generated Language中的标准语言意识形态

原标题: Standard Language Ideology in AI-Generated Language

作者: Genevieve Smith, Eve Fleisig, Madeline Bossi, Ishita Rustagi, Xavier Yin

机构: UC Berkeley

摘要: 在这篇立场论文中，我们探讨了大语言模型（LLMs）生成的语言中的标准语言意识形态。首先，我们概述了标准语言意识形态在LLMs中的反映和强化。然后，我们提出了一个关于AI生成语言中标准语言意识形态的开放问题分类，这对于少数语言社区具有重要意义。我们引入了标准AI生成语言意识形态的概念，即AI生成语言将标准美式英语（SAE）视为语言的默认值，并强化了SAE是最“适当”语言的语言偏见。最后，我们讨论了仍然存在的紧张关系，包括对理想系统行为的思考，以及生成性AI工具模仿不同英语语言变体的优势和缺点。在整个过程中，我们讨论了标准语言意识形态作为现有全球权力结构在AI生成语言中的体现，并以问题结束，以迈向替代性、更具解放性的数字未来。

论文链接: https://arxiv.org/pdf/2406.08726

cs.CL: SRFUND：一种多粒度层次结构重建的形式理解基准测试

原标题: SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding

作者: Jiefeng Ma, Yan Wang, Chenyu Liu, Jun Du, Yu Hu, Zhenrong Zhang, Pengfei Hu, Qing Wang, Jianshu Zhang

机构: 中国科学技术大学 iFLYTEK

摘要: 准确地识别和组织文本内容对于在表单理解领域中的文档处理自动化至关重要。现有的数据集，如FUNSD和XFUND，支持实体分类和关系预测任务，但通常仅限于局部和实体级别的注释。这种限制忽视了文档的分层结构表示，限制了对复杂表单的全面理解。为了解决这个问题，我们提出了SRFUND，这是一个分层结构的多任务表单理解基准。SRFUND在原始FUNSD和XFUND数据集的基础上提供了精细的注释，包括五个任务：（1）单词到文本行的合并，（2）文本行到实体的合并，（3）实体类别分类，（4）项目表格定位，以及（5）基于实体的完整文档分层结构恢复。我们在原始数据集的各个层次上补充了缺失的注释，并为表单中的多项表格区域添加了详细的注释。此外，我们引入了全局分层结构依赖性，用于实体关系预测任务，超越了传统的局部键值关联。SRFUND数据集包括英语、中文、日语、德语、法语、西班牙语、意大利语和葡萄牙语等八种语言，使其成为跨语言表单理解的强大工具。广泛的实验结果表明，SRFUND数据集在处理多样化的布局和全局分层结构的表单方面提供了新的挑战和重要机会，从而为表单理解领域提供了深入的见解。原始数据集和基线方法的实现可在此https URL上获得。

论文链接: https://arxiv.org/pdf/2406.08757

Github: https://sprateam-ustc.github.io/SRFUND

cs.CL: mOSCAR: 一个大规模的多语言和多模态的文档级语料库

原标题: mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus

作者: Matthieu Futeral, Armel Zebaze, Pedro Ortiz Suarez, Julien Abadji, Rémi Lacroix, Cordelia Schmid, Rachel Bawden, Benoît Sagot

机构: 巴黎综合理工学院法国国家科学研究中心伊利莎白大学巴黎索邦大学通用爬虫基金会巴黎-萨克莱大学

摘要: 多模态大型语言模型（mLLMs）是在大量的文本-图像数据上进行训练的。虽然大多数mLLMs只是在类似标题的数据上进行训练，但Alayrac等人[2022]表明，此外还可以通过在文本和图像的交替序列上进行训练，从而产生上下文学习能力的出现。然而，他们使用的数据集M3W并不公开，而且只有英文。已经有人试图复现他们的结果，但发布的数据集只有英文。相比之下，当前的多语言和多模态数据集要么只包含类似标题的数据，要么是中等规模的或完全私有的数据。这限制了mLLM在世界上其他7000种语言中的研究。因此，我们介绍了mOSCAR，据我们所知，这是第一个从网络上爬取的大规模多语言和多模态文档语料库。它涵盖了163种语言，315M个文档，214B个标记和1.2B个图像。我们经过一系列的过滤和评估步骤，确保mOSCAR足够安全、多样化且质量良好。我们还额外训练了两种类型的多语言模型，以证明mOSCAR的好处：（1）在mOSCAR的子集和字幕数据上训练的模型，以及（2）仅在字幕数据上训练的模型。此外，在mOSCAR上额外训练的模型在各种多语言图像-文本任务和基准测试中显示出了强大的少样本学习性能提升，证实了之前针对仅英文mLLMs的发现。

论文链接: https://arxiv.org/pdf/2406.08707

cs.CL: ECBD：面向自然语言处理的证据中心基准设计。

原标题: ECBD: Evidence-Centered Benchmark Design for NLP

作者: Yu Lu Liu, Su Lin Blodgett, Jackie Chi Kit Cheung, Q. Vera Liao, Alexandra Olteanu, Ziang Xiao

机构: Mila – 魁北克人工智能研究所麦吉尔大学微软研究院，加拿大蒙特利尔加拿大CIFAR人工智能主席约翰霍普金斯大学

摘要: 基准测试被视为评估自然语言处理进展的关键。然而，创建一个基准测试涉及许多设计决策（例如，包括哪些数据集，使用哪些度量标准），这些决策通常依赖于关于基准测试的目的或实际测量的暗含、未经测试的假设。目前还没有一种原则性的方法来分析这些决策以及它们对基准测试测量结果的有效性的影响。为了填补这一空白，我们借鉴了教育评估中的证据中心设计，并提出了证据中心基准设计（ECBD）框架，该框架将基准测试设计过程形式化为五个模块。ECBD指定了每个模块在帮助从业者收集感兴趣的能力证据方面所起的作用。具体而言，每个模块要求基准测试设计者描述、证明和支持基准测试设计选择，例如清楚地指定基准测试旨在测量的能力或如何从模型响应中收集有关这些能力的证据。为了演示ECBD的使用，我们对三个基准测试进行了案例研究：BoolQ、SuperGLUE和HELM。我们的分析揭示了基准测试设计和文档化中的共同趋势，这可能会威胁到基准测试测量结果的有效性。

论文链接: https://arxiv.org/pdf/2406.08723

cs.CL: 增强心理治疗咨询：利用大语言模型进行咨询对话的数据增强流程

原标题: Enhancing Psychotherapy Counseling: A Data Augmentation Pipeline Leveraging Large Language Models for Counseling Conversations

作者: Jun-Woo Kim, Ji-Eun Han, Jun-Seok Koh, Hyeon-Tae Seo, Du-Seong Chang

摘要: 我们介绍了一种利用大语言模型（LLMs）将单轮心理治疗咨询会话转化为多轮交互的流程。虽然存在为心理障碍患者提供在线辅助治疗服务的AI支持平台，但由于多轮训练数据集的有限可用性，它们经常无法充分利用治疗师的专业知识。我们提出的流程有效地解决了这些限制。该流程包括两个主要步骤：信息提取和多轮治疗生成。每个步骤都经过精心设计，从可用的数据集中提取和生成全面的多轮治疗对话。在零样本和少样本生成场景下的实验结果表明，我们的方法显著提高了大语言模型在心理健康咨询背景下生成高质量的多轮对话的能力。我们的流程和数据集可以在此https URL公开获取。

论文链接: https://arxiv.org/pdf/2406.08718

Github: https://github.com/jwkim-chat/A-Data-Augmentation-Pipeline-Leveraging-Large-Language-Models-for-Counseling-Conversations

cs.CL: 视觉草图板：作为多模态语言模型的视觉思维链的素描

原标题: Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models

作者: Yushi Hu, Weijia Shi, Xingyu Fu, Dan Roth, Mari Ostendorf, Luke Zettlemoyer, Noah A Smith, Ranjay Krishna

机构: 华盛顿大学 Allen人工智能研究所宾夕法尼亚大学

摘要: 人类绘画是为了辅助推理：在解决几何问题时，我们会画辅助线；在地图推理时，我们会标记和圈出；我们使用草图来扩大我们的想法并缓解我们有限容量的工作记忆。然而，当前的多模态语言模型（LMs）中缺少这样的行为。当前的思维链和工具使用范式只使用文本作为中间推理步骤。在这项工作中，我们引入了Sketchpad，这是一个为多模态LMs提供视觉草图板和绘图工具的框架。LM根据它所绘制的视觉工件进行规划和推理。与以往的工作不同，Sketchpad使LM能够使用线条、框、标记等进行绘图，更接近人类的素描，并更好地促进推理。Sketchpad在绘图过程中还可以使用专业的视觉模型（例如，使用目标检测模型绘制边界框，使用分割模型绘制掩码），以进一步增强视觉感知和推理能力。我们在各种数学任务（包括几何、函数、图形和国际象棋）和复杂的视觉推理任务上进行了实验。Sketchpad在所有任务上都显著提高了性能，相对于没有绘图的强基准模型，数学任务平均提升了12.7%，视觉任务提升了8.6%。带有Sketchpad的GPT-4o在所有任务上都取得了最新的最佳结果，包括V*Bench（80.3%）、BLINK空间推理（83.9%）和视觉对应（80.8%）。所有代码和数据都在此https URL中。

论文链接: https://arxiv.org/pdf/2406.09403

Github: https://visualsketchpad.github.io/

cs.CL: 探索多语种广播和机构语音的自动转录中的口语语言识别策略

原标题: Exploring Spoken Language Identification Strategies for Automatic Transcription of Multilingual Broadcast and Institutional Speech

作者: Martina Valente, Fabio Brugnara, Giovanni Morrone, Enrico Zovato, Leonardo Badino

机构: Almawave S.p.A.

摘要: 本文讨论了在多语言广播和机构语音中的口语语言识别（SLI）和语音识别问题，这些是在SLI文献中很少涉及的实际应用场景。观察到在这些领域中，语言变化主要与说话人变化相关，我们提出了一个级联系统，包括说话人分割和语言识别，并将其与传统的语言识别和语言分割系统进行了比较。结果表明，所提出的系统通常能够实现更低的语言分类和语言分割错误率（相对语言分割错误率降低10%和相对语言混淆降低60%），并且在多语言测试集上导致更低的词错误率（相对词错误率降低8%以上），同时不会对单语音频上的语音识别产生负面影响（与单语音频上的ASR相比，绝对词错误率增加在0.1%至0.7%之间）。

论文链接: https://arxiv.org/pdf/2406.09290

cs.CL: 技巧包：对大语言模型的越狱攻击进行基准测试

原标题: Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs

作者: Zhao Xu, Fan Liu, Hao Liu

机构: The Hong Kong University of Science and Technology (Guangzhou)

摘要: 尽管大语言模型（LLMs）已经展示出在零样本情况下执行复杂任务的显著能力，但它们容易受到越狱攻击的影响，并可能被操纵以产生有害输出。最近，越来越多的研究将越狱攻击分为令牌级和提示级攻击。然而，以往的研究主要忽视了越狱攻击的多样化关键因素，大多数研究集中在LLM的漏洞上，缺乏对防御增强型LLM的探索。为了解决这些问题，我们评估了不同攻击设置对LLM性能的影响，并为越狱攻击提供了基准测试，鼓励采用标准化评估框架。具体而言，我们从目标级和攻击级的角度评估了在LLM上实施越狱攻击的八个关键因素。我们还在两个广泛使用的数据集上对六种防御方法进行了七次代表性的越狱攻击，涵盖了大约320个实验，使用了约50,000个GPU小时的A800-80G。我们的实验结果突出了对防御增强型LLM评估这些攻击的标准化基准的需求。我们的代码可在此https URL上获得。

论文链接: https://arxiv.org/pdf/2406.09324

Github: https://github.com/usail-hkust/Bag_of_Tricks_for_LLM_Jailbreaking

cs.CL: 端到端流式模型用于低延迟语音匿名化。

原标题: End-to-end Streaming model for Low-Latency Speech Anonymization

作者: Waris Quamer, Ricardo Gutierrez-Osuna

机构: 德克萨斯农工大学

摘要: 演讲者匿名化旨在隐藏说话者身份的线索，同时保留语言内容。目前基于机器学习的方法需要大量的计算资源，阻碍了实时流应用的使用。为了解决这些问题，我们提出了一种流模型，可以以低延迟实现演讲者匿名化。该系统以端到端自编码器的方式进行训练，使用轻量级内容编码器提取类似于HuBERT的信息，预训练的说话者编码器提取说话者身份，以及方差编码器注入音高和能量信息。这三种解耦的表示被馈送到解码器中，重新合成语音信号。我们展示了我们系统的两个实现的评估结果，一个完整模型的延迟为230毫秒，一个轻量级版本（大小为原版的0.1倍）将延迟进一步降低到66毫秒，同时保持自然度、可理解性和隐私保护方面的最新性能水平。

论文链接: https://arxiv.org/pdf/2406.09277

cs.CL: MuirBench：用于稳健多图像理解的综合基准测试

原标题: MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding

作者: Fei Wang, Xingyu Fu, James Y. Huang, Zekun Li, Qin Liu, Xiaogeng Liu, Mingyu Derek Ma, Nan Xu, Wenxuan Zhou, Kai Zhang, Tianyi Lorena Yan, Wenjie Jacky Mo, Hsiang-Hui Liu, Pan Lu, Chunyuan Li, Chaowei Xiao, Kai-Wei Chang, Dan Roth, Sheng Zhang, Hoifung Poon, Muhao Chen

机构: USC UPenn UMN UC Davis UW–Madison UCLA OSU Bytedance Microsoft Research

摘要: 我们介绍了MuirBench，这是一个全面的基准测试，专注于多模态LLM的稳健多图像理解能力。MuirBench包括12个多样化的多图像任务（例如场景理解，排序），涉及10个多图像关系类别（例如多视图，时间关系）。MuirBench由11,264个图像和2,600个多项选择问题组成，以成对的方式创建，其中每个标准实例与一个无法回答的变体配对，这个变体与标准实例在语义上有最小的差异，以便进行可靠的评估。在对20个最近的多模态LLM进行评估时，我们的结果显示，即使是表现最好的模型，如GPT-4o和Gemini Pro，也很难解决MuirBench，准确率分别为68.0%和49.3%。在单个图像上训练的开源多模态LLM几乎无法推广到多图像问题，准确率低于33.3%。这些结果凸显了MuirBench的重要性，鼓励社区开发能够超越单个图像的多模态LLM，并提出了未来改进的潜在途径。

论文链接: https://arxiv.org/pdf/2406.09411

cs.CL: 越狱评估：用于评估针对大语言模型的越狱尝试的集成工具包

原标题: JailbreakEval: An Integrated Toolkit for Evaluating Jailbreak Attempts Against Large Language Models

作者: Delong Ran, Jinyuan Liu, Yichen Gong, Jingyi Zheng, Xinlei He, Tianshuo Cong, Anyu Wang

机构: 清华大学香港科技大学（广州）

摘要: 破解攻击旨在引导大型语言模型（LLMs）生成有害的回应，以违禁指令为代价，给LLMs带来严重的滥用威胁。到目前为止，关于破解攻击和防御的研究正在兴起，然而，关于如何评估破解尝试是否成功，目前（令人惊讶地）还没有共识。换句话说，评估LLM回应的有害程度的方法各不相同，例如手动注释或以特定方式提示GPT-4。每种方法都有其优点和缺点，影响其与人类价值观的一致性，以及时间和财务成本。这种评估的多样性给研究人员在选择合适的评估方法和进行不同破解攻击和防御的公平比较时带来了挑战。在本文中，我们对破解评估方法进行了全面分析，参考了2023年5月至2024年4月间发布的近90项破解研究。我们的研究引入了一个系统的破解评估者分类法，深入探讨了它们的优点和缺点，以及其适应性的当前状态。此外，为了促进后续研究，我们提出了JailbreakEval，一个用户友好的工具包，专注于破解尝试的评估。它包含了各种知名的评估者，用户只需一条命令即可获得评估结果。JailbreakEval还允许用户在统一的框架中自定义自己的评估工作流程，方便开发和比较。总之，我们认为JailbreakEval是简化破解研究中的评估过程的催化剂，并在社区内促进了破解评估的包容性标准。

论文链接: https://arxiv.org/pdf/2406.09321

cs.CL: 朝向双向人工智能对齐：澄清、框架和未来方向的系统综述

原标题: Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions

作者: Hua Shen, Tiffany Knearem, Reshmi Ghosh, Kenan Alkiek, Kundan Krishna, Yachuan Liu, Ziqiao Ma, Savvas Petridis, Yi-Hao Peng, Li Qiwei, Sushrita Rakshit, Chenglei Si, Yutong Xie, Jeffrey P. Bigham, Frank Bentley, Joyce Chai, Zachary Lipton, Qiaozhu Mei, Rada Mihalcea, Michael Terry, Diyi Yang, Meredith Ringel Morris, Paul Resnick, David Jurgens

机构: 密歇根大学，谷歌，微软，卡内基梅隆大学，斯坦福大学，谷歌研究，谷歌DeepMind

摘要: 最近通用人工智能的进展凸显了将AI系统引导到个人和群体的预期目标、道德原则和价值观的重要性，这个概念被广泛认为是对齐。然而，人工智能与人类对齐的定义和范围缺乏明确，这对于跨研究领域的合作努力来实现这种对齐构成了重大障碍。特别是，以机器学习和哲学为导向的对齐研究通常将人工智能对齐视为一个静态的、单向的过程（即旨在确保AI系统的目标与人类相匹配），而不是一个持续的、相互对齐的问题[429]。这种观点在很大程度上忽视了对齐的长期互动和动态变化。为了了解这些差距，我们介绍了一项系统性的综述，涵盖了2019年至2024年1月间发表的400多篇论文，涉及人机交互、自然语言处理、机器学习等多个领域。我们对人工智能与人类对齐进行了特征化、定义和范围界定。在此基础上，我们提出了一个从以人为中心的视角组织文献的概念框架，即“双向人工智能与人类对齐”。该框架包括了传统的将人工智能与人类对齐的研究，以确保AI产生人类确定的预期结果，以及将人类与人工智能对齐的概念，旨在帮助个人和社会在认知和行为上适应人工智能的进展。此外，我们阐述了从文献分析中得出的关键发现，包括关于人类价值观、交互技术和评估的讨论。为了为未来的研究铺平道路，我们设想了未来方向的三个关键挑战，并提出了潜在的未来解决方案的示例。

论文链接: https://arxiv.org/pdf/2406.09264

cs.CL: 扩散高斯混合音频降噪

原标题: Diffusion Gaussian Mixture Audio Denoise

作者: Pu Wang, Junhui Li, Jialu Li, Liangdong Guo, Youshan Zhang

机构: 中国科学技术大学康奈尔大学辽宁科技大学耶稣会大学

摘要: 最近的扩散模型在音频降噪任务中取得了令人满意的表现。逆向过程的独特属性可以恢复清晰的信号。然而，现实世界中噪声的分布并不符合单一的高斯分布，甚至是未知的。高斯噪声条件的采样限制了其应用场景。为了克服这些挑战，我们提出了一个DiffGMM模型，这是一个基于扩散和高斯混合模型的降噪模型。我们使用逆向过程来估计高斯混合模型的参数。给定一个有噪音的音频信号，我们首先应用1D-U-Net来提取特征，并训练线性层来估计高斯混合模型的参数，从而近似真实的噪声分布。将噪声信号不断减去估计的噪声，输出清晰的音频信号。广泛的实验结果表明，所提出的DiffGMM模型达到了最先进的性能。

论文链接: https://arxiv.org/pdf/2406.09154

cs.CL: 高棉语义搜索引擎：数字信息访问和文档检索

原标题: Khmer Semantic Search Engine: Digital Information Access and Document Retrieval

作者: Nimol Thuon

摘要: 搜索引擎的过程对于文档内容检索至关重要。对于高棉文档，需要一种工具来提取关键词。尽管每天都会产生大量的高棉内容，但由于缺乏有效的语义搜索工具，柬埔寨人很难找到必要的文档。即使是谷歌在高棉内容方面也无法提供高准确性。语义搜索引擎通过采用先进的算法来理解各种内容类型，从而改善搜索结果。随着高棉数字内容（如报告、文章和社交媒体反馈）的增加，增强搜索能力变得至关重要。本研究提出了第一个高棉语义搜索引擎（KSE），旨在改进传统的高棉搜索方法。利用语义匹配技术和形式化注释的语义内容，我们的工具从用户查询中提取有意义的关键词，执行精确匹配，并提供最佳匹配的离线文档和在线URL文档。我们提出了两种基于关键词提取和语义搜索匹配的语义搜索框架。此外，我们还开发了数据准备工具，包括文档添加和手动关键词提取。为了评估性能，我们创建了一个基准数据集，并讨论了与搜索和语义搜索相关的问题。我们的研究结果显示，理解搜索术语的语义可以带来更准确的结果。

论文链接: https://arxiv.org/pdf/2406.09320

cs.CL: ReMI：用于多图推理的数据集

原标题: ReMI: A Dataset for Reasoning with Multiple Images

作者: Mehran Kazemi, Nishanth Dikkala, Ankit Anand, Petar Devic, Ishita Dasgupta, Fangyu Liu, Bahare Fatemi, Pranjal Awasthi, Dee Guo, Sreenivas Gollapudi, Ahmed Qureshi

机构: Google DeepMind Google Research

摘要: 随着大型语言模型（LLMs）的不断发展，创建新的基准以有效评估其不断扩展的能力并确定改进的领域变得至关重要。本研究专注于多图像推理，这是最先进的LLMs中的一种新兴能力。我们介绍了ReMI，这是一个旨在评估LLMs在多图像推理方面能力的数据集。该数据集涵盖了各种推理领域，如数学、物理、逻辑、代码、表格/图表理解以及空间和时间推理。它还涵盖了多图像推理场景中的广泛特征。我们使用ReMI对几种尖端的LLMs进行了基准测试，并发现它们的性能与人类水平的熟练程度之间存在显著差距。这凸显了多图像推理的挑战以及进一步研究的需求。我们的分析还揭示了不同模型的优势和劣势，为当前可实现的推理类型以及未来模型需要改进的领域提供了启示。为了促进该领域的进一步研究，我们公开发布了ReMI：链接。

论文链接: https://arxiv.org/pdf/2406.09175

其他链接: https://huggingface.co/datasets/mehrankazemi/ReMI

cs.CL: 不流畅语音 - 单人对话语音数据集与语音附加语言

原标题: DisfluencySpeech – Single-Speaker Conversational Speech Dataset with Paralanguage

作者: Kyra Wang, Dorien Herremans

机构: 新加坡科技与设计大学

摘要: 笑声、叹息、结巴等形式的语音语言不直接贡献词汇意义给语音，但它们提供了关键的命题背景，有助于语义和语用过程，比如讽刺。因此，对于人工社交智能体来说，理解和能够生成具有语义重要的语音语言是非常重要的。大多数语音数据集不包括转录的非词汇语音声音和不流畅的语言，而那些包括的通常是多说话者数据集，每个说话者提供的音频相对较少。这使得训练包括这些语言语音组成部分的对话文本转语音（TTS）合成模型具有挑战性。
因此，我们提供了DisfluencySpeech，一个带有语音语言的高质量标记的英语语音数据集。一个说话者从Switchboard-1电话语音语料库（Switchboard）中重新创造了近10小时的表达性话语，模拟了真实的非正式对话。为了帮助开发一个能够从文本中预测性地合成语音语言而不需要这些组成部分的TTS模型，我们提供了三种不同级别的信息删除的转录（删除非语音事件，删除非句子元素和删除错误开始），以及在每个级别上训练的基准TTS模型。

论文链接: https://arxiv.org/pdf/2406.08820

cs.CL: INS-MMBench：一个评估保险领域LVLM性能的综合基准测试

原标题: INS-MMBench: A Comprehensive Benchmark for Evaluating LVLMs’ Performance in Insurance

作者: Chenwei Lin, Hanjia Lyu, Xian Xu, Jiebo Luo

机构: 复旦大学 University of Rochester

摘要: 大视觉语言模型（LVLMs）在各种常规多模态应用中表现出色，如图像识别和视觉推理，并且在专业领域也显示出了很大的潜力。然而，在富有应用场景和丰富多模态数据的保险领域中，LVLMs的应用潜力尚未得到有效探索。目前还没有对保险领域的多模态任务进行系统性的综述，也没有专门设计用于评估LVLMs在保险领域能力的基准。这个空白阻碍了LVLMs在保险领域的发展。在本文中，我们系统地回顾和总结了四种代表性保险类型的多模态任务：汽车保险、财产保险、健康保险和农业保险。我们提出了INS-MMBench，这是第一个专为保险领域量身定制的综合LVLMs基准。INS-MMBench包括总共2.2K个经过精心设计的多项选择题，涵盖12个元任务和22个基本任务。此外，我们评估了多个代表性的LVLMs，包括GPT-4o等闭源模型和BLIP-2等开源模型。这个评估不仅验证了我们基准的有效性，还提供了对当前LVLMs在保险领域各种多模态任务上的深入性能分析。我们希望INS-MMBench能促进LVLMs在保险领域的进一步应用，并激发跨学科的发展。我们的数据集和评估代码可在此https URL上获得。

论文链接: https://arxiv.org/pdf/2406.09105

Github: https://github.com/FDU-INS/INS-MMBench

cs.CL: MMFakeBench：用于LVLM的混合源多模态虚假信息检测基准

原标题: MMFakeBench: A Mixed-Source Multimodal Misinformation Detection Benchmark for LVLMs

作者: Xuannan Liu, Zekun Li, Peipei Li, Shuhan Xia, Xing Cui, Linzhi Huang, Huaibo Huang, Weihong Deng, Zhaofeng He

机构: 北京邮电大学加利福尼亚大学圣巴巴拉分校中科院智能感知与计算研究中心

摘要: 当前的多模态虚假信息检测（MMD）方法通常假设每个样本只有一个来源和一种伪造类型，这对于现实世界中存在多个伪造来源的场景来说是不足够的。缺乏混合来源虚假信息的基准已经阻碍了该领域的进展。为了解决这个问题，我们引入了MMFakeBench，这是第一个混合来源MMD的综合基准。MMFakeBench包括3个关键来源：文本真实性失真、视觉真实性失真和跨模态一致性失真，以及12个虚假信息伪造类型的子类别。我们进一步在零样本设置下对MMFakeBench上的6种常见检测方法和15种大型视觉语言模型（LVLMs）进行了广泛评估。结果表明，当前方法在这种具有挑战性和现实的混合来源MMD设置下面临困难。此外，我们提出了一种创新的统一框架，该框架整合了LVLM智能体的理性、行动和工具使用能力，显著提高了准确性和泛化性。我们相信这项研究将促进对更加现实的混合来源多模态虚假信息的未来研究，并为虚假信息检测方法提供公正的评估。

论文链接: https://arxiv.org/pdf/2406.08772

cs.CL: Transformer-based vision encoders中的表示结构有多结构化？对视觉语言模型中的多对象表示进行分析。

原标题: How structured are the representations in transformer-based vision encoders? An analysis of multi-object representations in vision-language models

作者: Tarun Khajuria, Braian Olmiro Dias, Jaan Aru

机构: 塔尔恩·卡胡里亚（Tarun Khajuria）、布莱安·奥尔米罗·迪亚斯（Braian Olmiro Dias）和亚恩·阿鲁（Jaan Aru）是塔尔图大学（University of Tartu）计算机科学研究所（Institute of Computer Science）的作者。

摘要: 形成和使用类似符号的结构化表示对于推理被认为是关键的，以便对新输入进行泛化。允许在训练数据分布之外进行泛化的主要工具是将不相关的信息抽象为与任务相关的紧凑形式的能力。这种抽象表示的一种极端形式是符号。人类利用符号将信息绑定在一起，同时将不相关的部分抽象出来以一致而有意义地利用信息。本研究评估了视觉编码器中这种结构化表示的状态。具体而言，我们评估了大型视觉语言预训练模型中的图像编码器，以解决它们的表示缺乏哪些理想属性的问题，通过将针对LLM的符号结构化推理的标准应用于图像模型。我们测试了像VIT、BLIP、CLIP和FLAVA这样的图像编码器的表示空间，以描述这些模型中对象表示的分布。特别地，我们使用来自COCO数据集的多对象场景创建解码任务，将令牌空间与场景中各个对象的输入内容相关联。我们使用这些任务来描述网络的令牌和逐层信息建模。我们的分析突出了用于下游任务的CLS令牌仅关注训练下游任务所需的少数对象。但是，其他单独的对象由网络中来自这些对象的令牌单独建模。我们还观察到场景信息的广泛分布。这表明信息在令牌中的纠缠程度远远超过了表示类似符号的对象的最佳状态。鉴于这些符号属性，我们展示了导致这些模型在多对象场景的基本下游任务中出现故障模式的网络动态。

论文链接: https://arxiv.org/pdf/2406.09067

cs.CL: VLind-Bench: 在大型视觉语言模型中测量语言先验

原标题: VLind-Bench: Measuring Language Priors in Large Vision-Language Models

作者: Kang-il Lee, Minbeom Kim, Seunghyun Yoon, Minsung Kim, Dongryeol Lee, Hyukhun Koh, Kyomin Jung

机构: 首尔国立大学、IPAI、Adobe Research。

摘要: 大视觉-语言模型（LVLMs）在各种多模态任务中展现出了出色的性能。然而，它们存在一种被称为语言先验的问题，即仅基于文本模式生成响应，而忽视图像信息。解决语言先验问题至关重要，因为在处理训练分布之外的图像时，它可能导致不可取的偏见或幻觉。尽管其重要性，目前对于准确测量LVLMs中的语言先验的方法研究不足。虽然基于反事实或分布之外的图像的现有基准可以部分用于测量语言先验，但它们未能将语言先验与其他混淆因素分离。为此，我们提出了一个名为VLind-Bench的新基准，它是专门设计用于测量LVLMs的语言先验或盲目性的第一个基准。它不仅包括对反事实图像的测试以评估语言先验，还涉及一系列测试以评估更基本的能力，如常识知识、视觉感知和常识偏见。在我们的基准中，我们确保在评估语言先验之前，所有这些基本测试都通过了，从而最大程度地减少了其他因素对评估的影响。我们基准中对最近的LVLMs进行的评估和分析揭示了几乎所有模型都对语言先验有很大依赖，这在该领域提出了一个巨大的挑战。

论文链接: https://arxiv.org/pdf/2406.08702

cs.CL: 大语言模型驱动的机器人可能会冒着实施歧视、暴力和非法行为的风险。

原标题: LLM-Driven Robots Risk Enacting Discrimination, Violence, and Unlawful Actions

作者: Rumaisa Azeem, Andrew Hundt, Masoumeh Mansouri, Martim Brandão

机构: King’s College London Carnegie Mellon University University of Birmingham

摘要: 人机交互（HRI）和人工智能（AI）社区的成员提出了大语言模型（LLMs）作为机器人任务的有希望的资源，例如自然语言交互、家庭和工作场所任务、近似“常识推理”和对人类建模。然而，最近的研究引发了对LLMs在真实世界的机器人实验和应用中产生歧视性结果和不安全行为的担忧。为了解决这些问题，我们对几个评分较高的LLMs进行了基于HRI的歧视和安全标准评估。我们的评估结果显示，LLMs在面对具有多样性保护身份特征的人群（例如种族、性别、残疾状况、国籍、宗教及其交叉等）时，目前缺乏鲁棒性，产生与直接歧视结果一致的偏见输出–例如，“吉普赛”和“哑巴”人被标记为不可信任，但不包括“欧洲人”或“健全人”。此外，我们在具有无限制的自然语言（开放词汇）输入的环境中测试模型，并发现它们无法安全地行动，生成接受危险、暴力或非法指令的响应–例如导致事故的错误陈述、拿走人们的辅助工具和性侵犯。我们的结果强调了迫切需要进行系统、常规和全面的风险评估和保证，以改善结果，并确保LLMs只在安全、有效和公正的情况下操作机器人。数据和代码将提供。

论文链接: https://arxiv.org/pdf/2406.08824

如果想您想查看常用AI工具的中文文档，可以使用 www.aidoczh.com，里面有Langchain、Milvus等工具的官方文档的中文翻译。

本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】