当前位置:   article > 正文

2024年6月10日Arxiv大语言模型相关论文

2024年6月10日arxiv大语言模型相关论文

cs.CL: 多头 RAG:用大语言模型解决多方面问题

原标题: Multi-Head RAG: Solving Multi-Aspect Problems with LLMs

作者: Maciej Besta, Ales Kubicek, Roman Niggli, Robert Gerstenberger, Lucas Weitzendorf, Mingyuan Chi, Patrick Iff, Joanna Gajda, Piotr Nyczyk, Jürgen Müller, Hubert Niewiadomski, Marcin Chrapek, Michał Podstawski, Torsten Hoefler

机构: ETH Zurich Cledar BASF SE Warsaw University of Technology

摘要: 检索增强生成(RAG)通过在大语言模型(LLM)中检索文档,提供更准确和相关的回复,增强了大语言模型的能力。现有的RAG解决方案没有专注于可能需要获取具有完全不同内容的多个文档的查询。这样的查询经常发生,但是具有挑战性,因为这些文档的嵌入可能在嵌入空间中相距较远,使得检索它们变得困难。本文介绍了一种名为多头RAG(MRAG)的新方案,旨在通过一个简单而强大的想法来解决这个问题:利用Transformer的多头注意力层的激活,而不是解码器层,作为获取多方面文档的键。驱动动机是不同的注意力头可以学习捕捉不同的数据方面。利用相应的激活结果产生表示数据项和查询各个方面的嵌入,提高了复杂查询的检索准确性。我们提供了评估方法和指标、合成数据集和真实世界用例来证明MRAG的有效性,显示与标准RAG基线相比,相关性提高了高达20%。MRAG可以与现有的RAG框架和RAGAS等基准工具以及不同类别的数据存储无缝集成。

论文链接: https://arxiv.org/pdf/2406.05085

Github: https://github.com/spcl/mrag

cs.CL: SUMIE: 用于增量实体摘要的合成基准

原标题: SUMIE: A Synthetic Benchmark for Incremental Entity Summarization

作者: Eunjeong Hwang, Yichao Zhou, Beliz Gunel, James Bradley Wendt, Sandeep Tata

机构: University of British Columbia, Google Deepmind

摘要: 没有现有的数据集能够充分测试语言模型在增量更新实体摘要方面的能力,而这是这些模型快速发展的关键能力。增量实体摘要(IES)任务对于维护准确、最新的知识至关重要。为了解决这个问题,我们引入了SUMIE,一个完全合成的数据集,旨在暴露真实世界中的IES挑战。这个数据集有效地突出了问题,如错误的实体关联和不完整的信息呈现。与常见的合成数据集不同,我们的数据集捕捉到了真实世界数据中的复杂性和细微差别。我们按顺序生成了信息丰富、多样化的属性、摘要和非结构化段落,确保高质量。生成的摘要和段落之间的对齐度超过96%,证实了数据集的质量。广泛的实验表明,这个数据集的难度很大 - 最先进的大语言模型在更新摘要时的F1得分超过80.4%。我们将开源基准和评估指标,以帮助社区在IES任务上取得进展。

论文链接: https://arxiv.org/pdf/2406.05079

cs.CL: 大语言模型比人类更具共情能力吗?

原标题: Are Large Language Models More Empathetic than Humans?

作者: Anuradha Welivita, Pearl Pu

机构: École Polytechnique Fédérale de Lausanne

摘要: 随着大语言模型(LLMs)的出现,研究它们是否能在情感识别和共情回应等领域超越人类已成为研究的焦点。本文提出了一项全面研究,探索了四种最先进的LLMs(GPT-4,LLaMA-2-70B-Chat,Gemini-1.0-Pro和Mixtral-8x7B-Instruct)的共情回应能力,与人类基准进行比较。我们进行了一项涉及1,000名参与者的用户研究,评估了人类和四种LLMs对2,000个情感对话提示生成的共情质量,这些对话提示经过精心选择,涵盖了32种不同的积极和消极情绪的广泛范围。我们的研究结果显示,LLMs的共情回应能力明显优于人类,并具有统计学上的显著优势。GPT-4被认为是最具共情能力的,与人类基准相比,其回应中被评为“好”的比例增加了约31%。其次是LLaMA-2,Mixtral-8x7B和Gemini-Pro,它们的“好”评级分别增加了约24%,21%和10%。我们进一步分析了回应评级的细粒度,并发现一些LLMs在回应特定情绪方面明显优于其他LLMs。建议的评估框架提供了一种可扩展和适应性强的方法,用于评估新LLMs的共情能力,避免了在未来研究中需要复制本研究结果的需求。

论文链接: https://arxiv.org/pdf/2406.05063

cs.CL: 多模态大语言模型的参数高效微调的实证研究

原标题: An Empirical Study on Parameter-Efficient Fine-Tuning for MultiModal Large Language Models

作者: Xiongtao Zhou, Jie He, Yuhua Ke, Guangyao Zhu, Víctor Gutiérrez-Basulto, Jeff Z. Pan

机构: Waseda University, Japan School of Informatics, University of Edinburgh, UK School of Computer Science and Informatics, Cardiff University, UK

摘要: 多模态大型语言模型(MLLMs)通过多模态指令数据集进行微调,展示了在多模态任务中的显著能力。然而,由于MLLMs通常包含数十亿个参数,微调所有参数变得具有挑战性。为了解决这个问题,我们研究了MLLMs的参数高效微调(PEFT)方法。我们旨在确定在只训练有限数量参数的情况下提高MLLMs性能的有效方法。本文使用四种常见的PEFT方法对开源MLLMs的LLM组件进行了实证研究。我们进行了全面的分析,包括PEFT方法对各种模型、参数和PEFT模块位置的影响,微调数据的大小,基于PEFT方法的模型稳定性,MLLM的泛化能力和幻觉。我们在两个不同类别的七个数据集上评估了四种PEFT方法:未见过的数据集和已见过的数据集。在所有实验中,我们展示了适配器是表现最好的PEFT方法。同时,微调连接器层在大多数MLLMs中可以提高性能。代码和数据可在此https URL上获得。

论文链接: https://arxiv.org/pdf/2406.05130

Github: https://github.com/alenai97/PEFT-MLLM.git

cs.CL: 场景和方法:用于情境化自然语言解释

原标题: Scenarios and Approaches for Situated Natural Language Explanations

作者: Pengshuo Qiu, Frank Rudzicz, Zining Zhu

机构: Tohoku University Vector Institute for Artificial Intelligence Dalhousie University Stevens Institute of Technology

摘要: 大语言模型(LLMs)可以用来生成适应不同用户情境的自然语言解释(NLE)。然而,目前还没有对这种适应程度进行定量评估。为了弥补这一空白,我们收集了一个基准数据集,名为“基于情境的解释”。该数据集包含100个解释对象。每个解释对象都与针对三种不同受众类型(如教育工作者、学生和专业人士)的解释配对,使我们能够评估这些解释在满足这些不同群体(如学生、教师和家长)的特定信息需求和背景方面的表现。对于每个“与受众配对的解释对象”情境,我们都包含了一个人工编写的解释。这些解释使我们能够计算得分,量化LLMs如何将解释适应情境。在一系列预训练的语言模型中,我们研究了三类提示方法:基于规则的提示、元提示和上下文学习提示。我们发现:1)语言模型可以生成提示,使得解释与目标情境更加精确地对齐;2)通过提示“你是一个有帮助的助手…”来明确建模“助手”角色并不是解释任务中必要的提示技术;3)上下文学习提示只能帮助LLMs学习演示模板,但不能提高它们的推理性能。基于情境的自然语言解释和我们的分析有助于未来研究生成基于情境的自然语言解释。

论文链接: https://arxiv.org/pdf/2406.05035

cs.CL: 使用基于语言模型的组合泛化

原标题: Compositional Generalization with Grounded Language Models

作者: Sondre Wold, Étienne Simon, Lucas Georges Gabriel Charpentier, Egor V. Kostylev, Erik Velldal, Lilja Øvrelid

机构: 奥斯陆大学

摘要: 基于实体的语言模型使用外部信息源,如知识图谱,以解决与预训练相关的一些常见挑战。通过扩展语义解析中关于组合泛化的先前工作,我们可以对这些模型从知识图谱中学习和泛化的程度进行受控评估。我们开发了一种生成自然语言问题与知识图谱配对的过程,针对组合性的不同方面,并进一步避免将语言模型与已经隐含在其权重中的信息进行关联。我们评估了将语言模型与知识图谱结合的现有方法,并发现它们在对未见长度的序列和已见基本组件的新组合进行泛化方面存在困难。虽然我们的实验结果在一定程度上揭示了这些模型的表达能力,但我们希望我们的工作和发布的数据集能够激发未来研究,探索如何更好地将语言模型与结构化知识表示相结合。

论文链接: https://arxiv.org/pdf/2406.04989

cs.CL: MEFT: 通过稀疏适配器实现内存高效微调

原标题: MEFT: Memory-Efficient Fine-Tuning through Sparse Adapter

作者: Jitai Hao, WeiWei Sun, Xin Xin, Qi Meng, Zhumin Chen, Pengjie Ren, Zhaochun Ren

机构: 山东大学 卡内基梅隆大学 中国科学院数学与系统科学研究院 莱顿大学

摘要: 参数高效微调(PEFT)可以在有限资源下促进大型语言模型(LLMs)的微调。然而,由于受限的模型容量,即可训练参数数量有限,PEFT在复杂的、知识密集型任务上的微调性能有限。为了克服这个限制,我们引入了一种新的机制,使用更大但内存高效的适配器对LLMs进行微调。这是通过利用LLMs中前馈网络(FFNs)中固有的激活稀疏性,并利用中央处理器(CPU)内存相对于图形处理器(GPU)的更大容量来实现的。我们在CPU上存储和更新更大适配器的参数。此外,我们采用了类似于专家混合(MoE)的架构,以减少GPU和CPU之间的不必要计算和通信量。这在PCI Express(PCIe)的有限带宽上尤为有益。即使在更有限的资源下(如24GB内存单GPU设置),我们的方法也可以实现与具有更大内存容量相当的微调结果,尽管训练效率有所损失。我们的代码可以在此https URL找到。

论文链接: https://arxiv.org/pdf/2406.04984

Github: https://github.com/CURRENTF/MEFT

cs.CL: 语言模型模拟特定的认知模式:预测性度量与个体差异的相互作用的研究

原标题: Language models emulate certain cognitive profiles: An investigation of how predictability measures interact with individual differences

作者: Patrick Haller, Lena S. Bolliger, Lena A. Jäger

机构: 苏黎世大学 波茨坦大学

摘要: 迄今为止,关于阅读中的惊讶和熵效应的大多数研究都是在群体层面上进行的,忽略了个体差异。在这项工作中,我们重新审视了从各种语言模型(LMs)估计的惊讶和熵测量的预测能力,将语言用户的认知能力信息纳入到人类阅读时间数据中作为处理工作的衡量标准。为此,我们评估了从生成型LMs估计的惊讶和熵对阅读数据的预测能力,这些数据来自于还完成了各种心理测量测试的个体。具体而言,我们研究了调节惊讶和熵相对于认知分数的影响是否增加了对阅读时间的预测准确性,并且我们还研究了LMs在对认知能力高或低的群体的阅读时间预测中是否存在系统性偏差,揭示了给定LM模拟的心理语言学主题的类型。我们的研究发现,在大多数情况下,纳入认知能力增加了惊讶和熵对阅读时间的预测能力,并且通常情况下,心理测量测试中的高表现与可预测性效应的敏感性较低相关。最后,我们的结果表明,分析的LMs模拟了具有较低语言智力的读者,这表明对于给定的目标群体(即具有较高语言智力的个体),这些LMs提供的可预测性估计较不准确。

论文链接: https://arxiv.org/pdf/2406.04988

cs.CL: 量化 Common Crawl 语料库中的地理空间信息

原标题: Quantifying Geospatial in the Common Crawl Corpus

作者: Ilya Ilyankou, Meihui Wang, James Haworth, Stefano Cavazzi

机构: UCL SpaceTimeLab Ordnance Survey

摘要: 大语言模型(LLMs)展示了新兴的地理空间能力,这是因为它们在大规模未标记文本数据集上进行了预训练,这些数据集通常来自于Common Crawl语料库。然而,CC中的地理空间内容仍然很少被探索,这影响了我们对LLMs空间推理能力的理解。本文使用强大的语言模型Gemini,通过分析一部分文档并手动修订结果,我们估计约有1/5到1/6的文档包含地理空间信息,如坐标和街道地址。我们的研究结果定量地揭示了Common Crawl以及网络爬虫数据中地理空间数据的性质和范围。此外,我们提出了一些问题,以指导未来对可用网络爬虫数据集中地理空间内容及其对LLMs的影响的研究。

论文链接: https://arxiv.org/pdf/2406.04952

cs.CL: BAMO在SemEval-2024任务9中的表现:BRAINTEASER:一个违背常识的新任务。

原标题: BAMO at SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Sense

作者: Baktash Ansari, Mohammadmostafa Rostamkhani, Sauleh Eetemadi

机构: 伊朗科学技术大学

摘要: 本文概述了我们在SemEval 2024任务9中的方法,即BRAINTEASER:一个挑战常识的新任务。该任务旨在评估语言模型的创造性思维能力。数据集包括挑战模型“超越常规思维”的多项选择题。我们对BERT和RoBERTa Large这两个模型进行了微调。接下来,我们采用了一种名为Chain of Thought (CoT)的零样本提示方法,使用了6个大型语言模型,如GPT-3.5、Mixtral和Llama2。最后,我们利用了一种名为ReConcile的技术,该技术采用了多个智能体进行零样本学习的“圆桌会议”方法,以生成3个选定语言模型之间的共识答案。我们的最佳方法在句子拼图子任务上实现了85%的整体准确率。

论文链接: https://arxiv.org/pdf/2406.04947

cs.CL: 穿越荆棘:基于随机森林模型的数值导向大语言模型研究

原标题: Through the Thicket: A Study of Number-Oriented LLMs derived from Random Forest Models

作者: Michał Romaszewski, Przemysław Sekuła, Przemysław Głomb, Michał Cholewa, Katarzyna Kołodziej

机构: 波兰科学院理论与应用信息学研究所

摘要: 大语言模型(LLMs)在文本处理方面表现出色。值得注意的是,LLMs可以从大型数据集中综合信息,并通过一系列思考链(CoT)类似于人类推理来解释它们的决策。LLMs的一个新兴应用是处理和解释数值数据,在这方面,微调可以提高它们在基本推理方法上的性能。本文提出了一种新颖的方法,利用从随机森林(RF)集成中的知识转移来训练LLMs,从而提高其效率和准确性。通过将RF决策路径转换为自然语言陈述,我们为LLM微调生成输出,增强模型对分类和解释决策的能力。我们的方法包括通过已建立的分类指标验证这些规则,确保它们的正确性。我们还研究了预处理技术对数值数据表示的影响以及对分类准确性和规则正确性的影响。

论文链接: https://arxiv.org/pdf/2406.04926

cs.CL: TCMD:用于评估大型语言模型的中医问答数据集

原标题: TCMD: A Traditional Chinese Medicine QA Dataset for Evaluating Large Language Models

作者: Ping Yu, Kaitao Song, Fengchen He, Ming Chen, Jianfeng Lu

机构: 南京理工大学 南京中医药大学

摘要: 最近无与伦比的大语言模型(LLMs)的进展推动了医学界,建立了先进的医学领域模型。然而,由于医学数据集的有限收集,目前只有少数全面的基准可用于评估该领域的进展。在本文中,我们介绍了一个新的医学问答(QA)数据集,其中包含大量用于解决中医药考试任务的手动指导,称为TCMD。具体而言,我们的TCMD收集了各个领域的大量问题,包括其注释的医学主题,从而全面评估LLMs在中医领域的能力。我们进行了对各种通用LLMs和医学领域特定LLMs的广泛评估。此外,我们还通过引入随机性来分析当前LLMs在解决中医问答任务中的鲁棒性。实验结果的不一致性也揭示了当前LLMs在解决问答任务方面的不足之处。我们还期望我们的数据集能进一步促进LLMs在中医领域的发展。

论文链接: https://arxiv.org/pdf/2406.04941

cs.CL: 在数据饮食中检测性别歧视

原标题: Sexism Detection on a Data Diet

作者: Rabiraj Bandyopadhyay, Dennis Assenmacher, Jose M.Alonso Moral, Claudia Wagner

机构: GESIS社会科学莱布尼茨研究所 西班牙圣地亚哥·德·康波斯特拉大学 RWTH亚琛

摘要: 随着社交媒体的使用增加,网络仇恨的蔓延也在增加。作为回应,人们在自然语言处理和深度学习的基础上,创建了一系列自动化工具,旨在识别有害文本内容。尽管人们知道训练深度学习模型需要大量的标注数据,但最近的研究表明,使用特定子集的数据训练的模型仍然具有与使用完整数据集训练的模型相当的性能。在这项工作中,我们展示了如何利用影响分数来估计训练模型时数据点的重要性,并设计了一种修剪策略,应用于性别歧视检测的情况。我们评估了使用不同修剪策略修剪数据训练的模型在三个领域外数据集上的性能,并发现,与其他研究一致,大部分实例可以被移除而不会显著降低性能。然而,我们还发现,在自然语言推理任务中成功的数据修剪策略并不适用于有害内容的检测,反而进一步加剧了已经普遍存在的类别不平衡问题,最坏的情况是完全没有仇恨类别的存在。

论文链接: https://arxiv.org/pdf/2406.04892

cs.CL: 复杂时间问答:一个用于复杂时间问答的大规模数据集

原标题: ComplexTempQA: A Large-Scale Dataset for Complex Temporal Question Answering

作者: Raphael Gruber, Abdelrahman Abdallah, Michael Färber, Adam Jatowt

机构: Innsbruck大学, Scads.AI, 德累斯顿工业大学

摘要: 我们介绍了ComplexTempQA,这是一个大规模的数据集,包含超过1亿个问题-答案对,旨在解决时间问答中的挑战。ComplexTempQA在规模和范围上显著超过了现有的基准数据集,如HOTPOTQA、TORQUE和TEQUILA。利用来自维基百科和维基数据的数据,该数据集涵盖了跨越两个十年的问题,并提供了无与伦比的主题广度。我们引入了一个独特的分类法,将问题分为属性、比较和计数问题,每个问题都围绕着事件、实体和时间段。ComplexTempQA的一个突出特点是其问题的高复杂性,这些问题需要有效的能力来回答,例如跨时间比较、时间聚合和涉及时间事件排序和实体识别的多跳推理。此外,每个问题都附带有详细的元数据,包括具体的时间范围,可以全面评估和增强大型语言模型的时间推理能力。ComplexTempQA既是开发复杂AI模型的测试基地,也是推进问题回答、信息检索和语言理解研究的基础。数据集和代码可以在此链接免费获取。

论文链接: https://arxiv.org/pdf/2406.04866

Github: https://github.com/DataScienceUIBK/ComplexTempQA

cs.CL: 深入探讨参数高效偏好对齐技术的权衡

原标题: A Deep Dive into the Trade-Offs of Parameter-Efficient Preference Alignment Techniques

作者: Megh Thakkar, Quentin Fournier, Matthew D Riemer, Pin-Yu Chen, Amal Zouaq, Payel Das, Sarath Chandar

机构: Mila – Quebec AI Institute, Université de Montréal, IBM Research, Polytechnique Montréal, Canada CIFAR AI Chair

摘要: 大语言模型首先在数万亿个标记上进行预训练,然后通过指令调整或对齐到特定的偏好。尽管由于计算需求的原因,预训练对大多数研究人员来说仍然难以实现,但由于LoRA和QLoRA等参数高效的方法,微调已经变得可行。对齐已知对许多因素非常敏感,包括数据的数量和质量、对齐方法和适配器等级。然而,对它们对下游性能的影响尚未进行广泛的研究。为了填补这一空白,我们对三个关键方面的流行选择进行了深入调查:(i)对齐数据集(HH-RLHF和BeaverTails),(ii)对齐技术(SFT和DPO),以及(iii)模型(LLaMA-1、Vicuna-v1.3、Mistral-7b和Mistral-7b-Instruct)。我们广泛的设置涵盖了300多个实验,揭示了一致的趋势和意外的发现。我们观察到更具信息性的数据如何有助于偏好对齐,在某些情况下,监督微调优于偏好优化,以及如何通过对齐到不同的偏好来提高下游任务的性能。通过我们的深入分析,我们提出了关键指南,以帮助研究人员进行更有效的参数高效的大语言模型对齐。

论文链接: https://arxiv.org/pdf/2406.04879

cs.CL: 俄罗斯立法语料库

原标题: The Russian Legislative Corpus

作者: Denis Saveliev, Ruslan Kuchakov

机构: Institute for the Rule of Law, European University at Saint Petersburg

摘要: 我们提供了从1991年到2023年的全面俄罗斯主要和次要立法语料库。该语料库收集了所有281,413个非机密联邦法规和法案的文本(共计176,523,268个标记),以及它们的元数据。该语料库有两个版本,一个是原始文本,经过最小的预处理,另一个是为语言分析准备的版本,带有形态句法标记。

论文链接: https://arxiv.org/pdf/2406.04855

Github: https://github.com/irlcode/RusLawOD

cs.CL: HateDebias: 关于仇恨言论去偏见的多样性和变异性

原标题: HateDebias: On the Diversity and Variability of Hate Speech Debiasing

作者: Nankai Lin, Hongyan Wu, Zhengming Chen, Zijian Li, Lianxi Wang, Shengyi Jiang, Dong Zhou, Aimin Yang

机构: 广东工业大学计算机科学学院 国防科技大学计算机学院 阿布扎比人工智能大学 广东外语外贸大学信息科学与技术学院

摘要: 社交媒体上的仇恨言论无处不在,但迫切需要加以控制。如果不能检测和减轻仇恨言论带来的偏见,就会出现各种类型的伦理问题。虽然已经提出了许多数据集来解决仇恨言论检测的问题,但这些数据集很少考虑到偏见的多样性和变异性,使其与真实世界的情况相去甚远。为了填补这一空白,我们提出了一个名为HateDebias的基准,以分析在连续变化的环境下仇恨言论检测模型的能力。具体而言,为了满足偏见的多样性,我们收集了具有不同类型偏见的现有仇恨言论检测数据集。为了满足数据集中偏见属性的变异性,我们重新组织数据集以符合连续学习的设置。我们评估了在单一类型偏见的数据集上训练的模型在HateDebias上的检测准确率,发现显著的性能下降。为了提供去偏见的潜在方向,我们进一步提出了一种基于连续学习和偏见信息正则化的去偏见框架,以及记忆回放策略,以确保模型的去偏见能力。在提出的基准测试上的实验结果表明,上述方法可以显著改善几个基线模型,突出其在真实世界应用中的有效性。

论文链接: https://arxiv.org/pdf/2406.04876

cs.CL: 语言模型是否展现出类似于人类的结构启动效应?

原标题: Do Language Models Exhibit Human-like Structural Priming Effects?

作者: Jaap Jumelet, Willem Zuidema, Arabella Sinclair

机构: 阿姆斯特丹大学 阿伯丁大学

摘要: 我们探索了在句子和标记级别上哪些语言因素对语言模型预测起重要作用,并调查这些因素是否反映了人类和人类语料库中的结果(Gries和Kootstra,2017)。我们利用结构启动范式,其中对结构的最近暴露促进了相同结构的处理。我们不仅调查启动效应是否发生,还调查它们发生在哪里以及哪些因素预测它们。我们展示了这些效应可以通过逆频率效应来解释,该效应在人类启动中已知,其中在启动中较稀有的元素增加了启动效应,以及启动和目标之间的词汇依赖关系。我们的结果为理解上下文中的属性如何影响语言模型中的结构预测提供了重要的一环。

论文链接: https://arxiv.org/pdf/2406.04847

cs.CL: 不确定性感知学习用于语言模型对齐

原标题: Uncertainty Aware Learning for Language Model Alignment

作者: Yikun Wang, Rui Zheng, Liang Ding, Qi Zhang, Dahua Lin, Dacheng Tao

机构: 复旦大学 香港中文大学

摘要: 随着经过指导调整的大型语言模型(LLMs)的发展,预训练基础模型的对齐越来越具有挑战性。现有的对齐策略通常利用多样化和高质量的数据源,但往往忽视任务的内在不确定性,将所有数据样本都学习得一样。这可能导致数据效率和模型性能不佳。为此,我们提出了一种基于不确定性感知的学习(UAL)方法,通过引入样本不确定性(从更强大的LLMs中获取)来改善不同任务场景下的模型对齐。我们以简单的方式实现了UAL,根据个别样本的不确定性自适应地设置训练的标签平滑值。分析表明,我们的UAL确实有助于在特征空间中更好地进行令牌聚类,验证了我们的假设。在广泛使用的基准测试中进行的大量实验证明,我们的UAL在标准的有监督微调上显著且一致地优于。值得注意的是,在混合场景中对齐的LLMs在高熵任务(即AlpacaEval排行榜)上平均提高了10.62%,在复杂的低熵任务(即MetaMath和GSM8K)上提高了1.81%。

论文链接: https://arxiv.org/pdf/2406.04854

cs.CL: 重新审视大语言模型调优中的灾难性遗忘

原标题: Revisiting Catastrophic Forgetting in Large Language Model Tuning

作者: Hongyu Li, Liang Ding, Meng Fang, Dacheng Tao

机构: 武汉大学 、悉尼大学、利物浦大学、南洋理工大学

摘要: 灾难性遗忘(CF)是指模型在学习新数据时忘记先前获得的知识。这会影响大型语言模型(LLMs)在微调过程中的效果,然而其潜在原因尚未得到彻底调查。本文首次揭示了模型损失景观的平坦度与LLMs领域中CF程度之间的直接联系。基于此,我们引入了锐度感知最小化方法,通过使损失景观变平来减轻CF。在涵盖不同模型规模的三个广泛使用的微调数据集上进行的实验证明了我们方法在缓解CF方面的有效性。分析表明,我们很好地补充了现有的抗遗忘策略,进一步增强了LLMs对CF的抵抗能力。

论文链接: https://arxiv.org/pdf/2406.04836

cs.CL: FedLLM-Bench:大语言模型联邦学习的现实基准测试

原标题: FedLLM-Bench: Realistic Benchmarks for Federated Learning of Large Language Models

作者: Rui Ye, Rui Ge, Xinyu Zhu, Jingyi Chai, Yaxin Du, Yang Liu, Yanfeng Wang, Siheng Chen

机构: 上海交通大学 清华大学 上海人工智能实验室

摘要: 联邦学习使得多个参与方能够在不直接共享数据的情况下共同训练大型语言模型(FedLLM)。在这种训练范式下,社区从框架、性能和隐私等多个方面投入了大量的努力。然而,令人不快的事实是,目前还没有适用于FedLLM的真实数据集和基准测试,之前的研究都依赖于人工构建的数据集,无法捕捉到真实场景中的特性。为了解决这个问题,我们提出了FedLLM-Bench,其中包括8种训练方法、4个训练数据集和6个评估指标,为FedLLM社区提供了一个全面的测试平台。FedLLM-Bench包括三个数据集(例如,用户注释的多语言数据集)用于联邦指令调优,以及一个数据集(例如,用户注释的偏好数据集)用于联邦偏好对齐,客户端数量范围从38到747不等。我们的数据集涵盖了几个代表性的多样性:语言、质量、数量、指令、长度、嵌入和偏好,捕捉到真实场景中的特性。基于FedLLM-Bench,我们在所有数据集上进行实验,对现有的联邦学习方法进行基准测试,并提供实证洞见(例如,多语言协作)。我们相信,我们的FedLLM-Bench可以通过减少所需的努力、提供实用的测试平台和促进公平比较来造福FedLLM社区。代码和数据集可在此https URL上获得。

论文链接: https://arxiv.org/pdf/2406.04845

Github: https://github.com/rui-ye/FedLLM-Bench

cs.CL: 通过结构条件语言生成对FrameNet进行注释

原标题: Annotating FrameNet via Structure-Conditioned Language Generation

作者: Xinyue Cui, Swabha Swayamdipta

机构: 南加州大学

摘要: 尽管语言模型在生成自然语言方面具有显著的生成能力,但它们在显式操作和生成语言结构方面的有效性仍未得到充分研究。在本文中,我们研究了根据FrameNet形式主义生成保留给定语义结构的新句子的任务。我们提出了一个框架,采用过度生成和过滤的方法来生成新的带有语义框架注释的句子。我们的结果表明,在提示和微调的情况下,基于丰富、明确的语义信息进行条件生成往往会产生高度人类接受的生成结果。我们生成的带有语义框架结构的注释在低资源环境下对于语义角色标注的数据增强是有效的;然而,在高资源环境下我们并没有看到好处。我们的研究得出结论,虽然生成高质量、语义丰富的数据可能是可行的,但这种生成的下游效用尚待观察,突出了自动化语言注释任务面临的重大挑战。

论文链接: https://arxiv.org/pdf/2406.04834

cs.CL: BERT是生成式上下文学习器。

原标题: BERTs are Generative In-Context Learners

作者: David Samuel

机构: University of Oslo

摘要: 本文探讨了遮蔽语言模型的上下文学习能力,并挑战了普遍认为它们不具备这种能力的观点。我们提出了一种令人尴尬地简单的推理技术,使得DeBERTa能够作为一个生成模型进行操作,而无需额外的训练。我们的研究结果表明,DeBERTa能够与甚至超过GPT-3,后者是以引入上下文学习范式而闻名的当代模型。比较分析显示,遮蔽语言模型和因果语言模型的行为非常不同,它们在不同类别的任务上明显胜过对方。这表明存在一个混合训练方法的巨大潜力,可以充分利用两种训练目标的优势。

论文链接: https://arxiv.org/pdf/2406.04823

Github: https://github.com/ltgoslo/bert-in-context

cs.CL: 自我目标:您的语言智能体已经知道如何实现高级目标

原标题: SelfGoal: Your Language Agents Already Know How to Achieve High-level Goals

作者: Ruihan Yang, Jiangjie Chen, Yikai Zhang, Siyu Yuan, Aili Chen, Kyle Richardson, Yanghua Xiao, Deqing Yang

机构: 复旦大学 Allen人工智能研究所

摘要: 由大型语言模型(LLM)驱动的语言智能体在游戏和编程等领域作为决策工具越来越有价值。然而,这些智能体在没有详细指令的情况下实现高级目标以及在反馈延迟的环境中适应性方面常常面临挑战。在本文中,我们提出了一种名为SelfGoal的新型自动方法,旨在增强智能体在有限的人类先验知识和环境反馈下实现高级目标的能力。SelfGoal的核心概念是在与环境的交互过程中自适应地将高级目标分解为更实际的子目标树结构,同时识别出最有用的子目标并逐步更新这个结构。实验结果表明,SelfGoal显著提高了语言智能体在竞争、合作和延迟反馈环境中的性能。项目页面:this https URL。

论文链接: https://arxiv.org/pdf/2406.04784

Github: https://selfgoal-agent.github.io

cs.CL: WildBench:在野外使用具有挑战性任务的真实用户对LLMs进行基准测试

原标题: WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild

作者: Bill Yuchen Lin, Yuntian Deng, Khyathi Chandu, Faeze Brahman, Abhilasha Ravichander, Valentina Pyatkin, Nouha Dziri, Ronan Le Bras, Yejin Choi

机构: Allen Institute for AI University of Washington

摘要: 我们介绍了WildBench,这是一个自动化评估框架,旨在使用具有挑战性的真实用户查询对大型语言模型(LLMs)进行基准测试。WildBench由1024个任务组成,这些任务是从超过一百万个人与聊天机器人的对话记录中精心选择出来的。为了使用WildBench进行自动化评估,我们开发了两个指标,即WB-Reward和WB-Score,这些指标可以使用先进的LLMs(如GPT-4-turbo)进行计算。WildBench评估使用任务特定的检查表来系统地评估模型输出,并提供结构化的解释来证明得分和比较的合理性,从而产生更可靠和可解释的自动判断。WB-Reward使用模型响应之间的细粒度两两比较,生成五种可能的结果:更好得多、稍微更好、稍微更差、更差得多或平局。与以前只使用单个基准模型的评估不同,我们选择了三个基准模型,其性能水平各不相同,以确保全面的两两比较评估。此外,我们提出了一种简单的方法来减轻长度偏差,即如果获胜响应超过败者响应超过 K K K个字符,则将“稍微更好/更差”的结果转换为“平局”。WB-Score对模型输出进行个别评估,使其成为一种快速和高效的评估指标。WildBench的结果表明,在困难任务上,与Chatbot Arena的人工投票Elo评分具有很强的相关性。具体而言,WB-Reward与排名前几位的模型的皮尔逊相关系数为0.98。此外,WB-Score达到0.95,超过了ArenaHard的0.91和AlpacaEval2.0的0.89的长度控制胜率,以及常规胜率的0.87。

论文链接: https://arxiv.org/pdf/2406.04770

Github: https://github.com/allenai/wildbench

cs.CL: 大声思考:对话中的情感推断解释

原标题: Think out Loud: Emotion Deducing Explanation in Dialogues

作者: Jiangnan Li, Zheng Lin, Lanrui Wang, Qingyi Si, Yanan Cao, Mo Yu, Peng Fu, Weiping Wang, Jie Zhou

机构: 中国科学院信息工程研究所 腾讯公司微信AI模式识别中心

摘要: 人类通过日常对话传达情感,使情感理解成为情感智能的关键步骤。为了理解对话中的情感,机器需要识别话语的情感(对话中的情感识别,ERD);基于情感,然后找到引起情感的话语(对话中的情感原因提取,ECED)。这两个任务的设定要求首先进行ERD,然后进行ECED,忽视了情感和原因之间的相互补充。为了解决这个问题,提出了一些新的任务来同时提取它们。尽管当前对这些任务的研究取得了很好的成果,但仅通过分类建模来识别与情感相关的因素缺乏以可解释的方式实现引发情感的具体思维过程。这种思维过程特别体现在大型语言模型(LLMs)的推理能力中,但目前尚未充分探索。为此,我们提出了一个新的任务“对话中的情感推断解释”(EDEN)。EDEN以明确的思考方式识别情感和原因。也就是说,模型需要生成一段解释性文本,首先总结原因;使用常识分析由原因引发的说话者的内在活动;然后根据情感猜测。为了支持EDEN的研究,我们基于ECED中现有的资源,通过人工努力构建了两个EDEN数据集。我们进一步评估了不同模型在EDEN上的表现,并发现LLMs比传统的PLMs更有竞争力。此外,EDEN可以帮助LLMs更好地识别情感和原因,探索了对话中可解释情感理解的新研究方向。

论文链接: https://arxiv.org/pdf/2406.04758

cs.CL: CRiskEval:一个用于大型语言模型的中文多级风险评估基准数据集

原标题: CRiskEval: A Chinese Multi-Level Risk Evaluation Benchmark Dataset for Large Language Models

作者: Ling Shi, Deyi Xiong

机构: 天津大学

摘要: 大语言模型(LLMs)具有许多有益的能力,但其潜在倾向可能存在未来无法预测的风险。因此,我们提出了CRiskEval,这是一个专门设计用于评估LLMs固有风险倾向的中文数据集,包括资源获取和恶意协调等,作为积极准备的一部分。为了策划CRiskEval,我们定义了一个包括7种前沿风险和4个安全级别的新风险分类法,包括极度危险、中度危险、中立和安全。我们遵循倾向评估的理念,通过细粒度的多项选择题回答,从经验上衡量LLMs的声明欲望。该数据集包含14,888个问题,模拟与预定义的7种前沿风险相关的场景。每个问题都附带4个答案选项,陈述与问题相对应的意见或行为倾向。所有答案选项都经过手动注释,标有定义的风险级别之一,以便我们可以轻松地为每个评估的LLM建立细粒度的前沿风险概况。通过对一系列流行的中文LLMs进行CRiskEval的广泛评估,揭示了一个惊人的发现:大多数模型表现出超过40%的风险倾向(对四个风险级别的加权倾向)。此外,随着模型规模的增加,模型对紧急自持、追求权力和其他危险目标的倾向性微妙增加也变得明显。为了促进对LLMs前沿风险评估的进一步研究,我们在此https URL上公开发布了我们的数据集。

论文链接: https://arxiv.org/pdf/2406.04752

Github: https://github.com/lingshi6565/Risk_eval

cs.CL: CRAG – 全面的RAG基准测试

原标题: CRAG – Comprehensive RAG Benchmark

作者: Xiao Yang, Kai Sun, Hao Xin, Yushi Sun, Nikita Bhalla, Xiangsen Chen, Sajal Choudhary, Rongze Daniel Gui, Ziran Will Jiang, Ziyu Jiang, Lingkun Kong, Brian Moran, Jiaqi Wang, Yifan Ethan Xu, An Yan, Chenyu Yang, Eting Yuan, Hanwen Zha, Nan Tang, Lei Chen, Nicolas Scheffer, Yue Liu, Nirav Shah, Rakesh Wanga, Anuj Kumar, Wen-tau Yih, Xin Luna Dong

摘要: 最近,检索增强生成(RAG)作为缓解大型语言模型(LLM)在知识缺乏方面的不足的一种有希望的解决方案出现了。然而,现有的RAG数据集并不能充分代表现实世界中多样化和动态性质的问答任务。为了弥补这一差距,我们引入了全面的RAG基准(CRAG),这是一个包含4,409个问题-答案对和模拟网络和知识图谱(KG)搜索的模拟API的事实问答基准。CRAG旨在涵盖五个领域和八个问题类别的各种问题,反映了从热门到长尾的各种实体受欢迎程度以及从年份到秒的时间动态性。我们在这个基准上的评估突显了实现完全可信的问答的差距。虽然大多数先进的LLM在CRAG上的准确率只有<=34%,但以直接的方式添加RAG只能将准确率提高到44%。最先进的工业RAG解决方案只能回答63%的问题而没有任何幻觉。CRAG还揭示了在回答与更高动态性、较低受欢迎程度或更高复杂性的事实相关问题时准确率较低,这表明了未来的研究方向。CRAG基准为2024年KDD杯挑战赛奠定了基础,在比赛的前50天内吸引了数千名参与者和提交的作品。我们承诺维护CRAG以服务于研究社区,推进RAG解决方案和通用QA解决方案的发展。

论文链接: https://arxiv.org/pdf/2406.04744

cs.CL: 混合智能体增强大语言模型的能力

原标题: Mixture-of-Agents Enhances Large Language Model Capabilities

作者: Junlin Wang, Jue Wang, Ben Athiwaratkun, Ce Zhang, James Zou

机构: Duke University Together AI University of Chicago Stanford University

摘要: 最近大型语言模型(LLMs)的进展在自然语言理解和生成任务方面展示了相当大的能力。随着LLMs数量的增加,如何利用多个LLMs的集体专长是一个令人兴奋的开放方向。为了实现这个目标,我们提出了一种新的方法,通过混合智能体(MoA)方法利用多个LLMs的集体优势。在我们的方法中,我们构建了一个分层的MoA架构,其中每一层包含多个LLM智能体。每个智能体将前一层智能体的所有输出作为辅助信息,用于生成自己的响应。MoA模型在AlpacaEval 2.0、MT-Bench和FLASK上实现了最先进的性能,超过了GPT-4 Omni。例如,我们的MoA仅使用开源LLMs,在AlpacaEval 2.0中领先GPT-4 Omni相当大的差距,得分为65.1%,而GPT-4 Omni为57.5%。

论文链接: https://arxiv.org/pdf/2406.04692

cs.CL: AICoderEval: 改进大语言模型在AI领域代码生成的能力

原标题: AICoderEval: Improving AI Domain Code Generation of Large Language Models

作者: Yinghui Xia, Yuyan Chen, Tianyu Shi, Jun Wang, Jinsong Yang

机构: AutoAgents.ai Fudan University University of Toronto East China Normal University

摘要: 自动代码生成是大型语言模型(LLMs)的一个关键能力。然而,在实际场景中评估这种能力仍然具有挑战性。以往的方法更多地关注低级代码生成,如模型加载,而不是生成适用于实际任务的高级代码,如图像到文本、文本分类等。因此,我们构建了AICoderEval数据集,该数据集基于HuggingFace、PyTorch和TensorFlow,专注于各个领域的实际任务,并提供了全面的评估指标,以增强LLMs的任务特定代码生成能力。AICoderEval包含用于自动评估这些任务的测试用例和完整程序,涵盖自然语言处理、计算机视觉和多模态学习等领域。为了促进该领域的研究,我们将AICoderEval数据集开源。之后,我们提出了CoderGen,一个基于智能体的框架,以帮助LLMs在构建的AICoderEval上生成与实际任务相关的代码。此外,我们训练了一个更强大的任务特定代码生成模型,名为AICoder,该模型在AICoderEval基础上进行了改进。我们的实验证明了CoderGen在提高LLMs的任务特定代码生成能力方面的有效性(对于原始模型的pass@1提高了12.00%,对于ReAct Agent的pass@1提高了9.50%)。AICoder还优于当前的代码生成LLMs,表明AICoderEval基准的质量很高。

论文链接: https://arxiv.org/pdf/2406.04712

其他链接: https://huggingface.co/datasets/vixuowis/AICoderEval

cs.CL: MATTER: 使用异构知识源的记忆增强Transformer

原标题: MATTER: Memory-Augmented Transformer Using Heterogeneous Knowledge Sources

作者: Dongkyu Lee, Chandana Satya Prakash, Jack FitzGerald, Jens Lehmann

机构: 香港科技大学 亚马逊 AGI

摘要: 利用外部知识对于在知识密集型任务(如问答)中实现高性能至关重要。检索和阅读方法被广泛采用,将外部知识整合到语言模型中。然而,由于长上下文长度与检索到的知识数量成正比,这种方法会导致计算成本和延迟增加。此外,现有的检索增强模型通常只能从单一类型的知识源中检索信息,限制了其对具有不同结构的多样化知识源的可扩展性。在这项工作中,我们引入了一种高效的记忆增强Transformer模型,称为MATTER,旨在从多个异构知识源中检索相关知识。具体而言,我们的模型通过固定长度的神经记忆从无结构的源(段落)和半结构化的源(问答对)中检索和阅读。我们证明,相对于现有的高效检索增强模型,在流行的问答基准测试中,我们的模型在准确性和速度方面都表现优于其他模型。此外,在推理过程中,MATTER的吞吐量是传统的读取和检索模型的100倍,同时取得了有竞争力的结果。

论文链接: https://arxiv.org/pdf/2406.04670

cs.CL: DiNeR:一个用于评估组合泛化能力的大规模真实数据集

原标题: DiNeR: a Large Realistic Dataset for Evaluating Compositional Generalization

作者: Chengang Hu, Xiao Liu, Yansong Feng

机构: 北京大学王选计算机技术研究所

摘要: 现有的大部分组合泛化数据集都是合成生成的,导致自然语言变化的缺乏。虽然最近有一些尝试引入非合成数据集来进行组合泛化,但它们要么数据规模有限,要么在组合形式上缺乏多样性。为了更好地研究具有更多语言现象和组合多样性的组合泛化,我们提出了DIsh NamE Recognition(DiNeR)任务,并创建了一个大规模的现实中文数据集。给定一个食谱指令,模型需要识别由多种食物、动作和口味组合而成的菜名。我们的数据集包含3,811道菜和228,114个食谱,并涉及到诸如指代、省略和歧义等许多语言现象。我们提供了基于T5和大语言模型(LLMs)的两个强基线。这项工作为这一任务提供了一个具有挑战性的任务、基线方法以及在菜名识别背景下的组合泛化的见解。代码和数据可在此https URL中获得。

论文链接: https://arxiv.org/pdf/2406.04669

Github: https://github.com/Jumpy-pku/DiNeR

cs.CL: 更多的胜利,更少的合作:评估西塞罗的外交策略

原标题: More Victories, Less Cooperation: Assessing Cicero’s Diplomacy Play

作者: Wichayaporn Wongkamjan, Feng Gu, Yanze Wang, Ulf Hermjakob, Jonathan May, Brandon M. Stewart, Jonathan K. Kummerfeld, Denis Peskoff, Jordan Lee Boyd-Graber

机构: 马里兰大学 普林斯顿大学 悉尼大学 南加州大学信息科学研究所

摘要: 翻译结果:
桌游《外交》是一个对于交流和合作人工智能具有挑战性的环境。最著名的交流型《外交》人工智能Cicero具有出色的战略能力,超过了人类玩家。然而,最好的《外交》玩家掌握的是交流,而不仅仅是战术,这就是为什么这个游戏引起了作为人工智能挑战的关注。本研究旨在了解Cicero在交流方面的成功程度。首先,我们使用抽象意义表示对游戏内的交流进行注释,以将游戏内战术与一般语言分开。其次,我们进行了二十多场人类与Cicero的对局,总计超过200个人类玩家小时的比赛时间。虽然人工智能可以持续地击败人类玩家,但由于人工智能在欺骗和说服方面的困难,人工智能与人类之间的交流仍然有限。这表明Cicero依赖于战略,并且尚未完全实现交流和合作人工智能的全部承诺。

论文链接: https://arxiv.org/pdf/2406.04643

cs.CL: 大语言模型引导的文档选择

原标题: Large Language Model-guided Document Selection

作者: Xiang Kong, Tom Gunter, Ruoming Pang

机构: Apple

摘要: 大语言模型(LLM)的预训练消耗了越来越多的计算资源,然而最近的研究表明,通过精心选择文档,可以在只使用一小部分浮点运算(FLOPs)的情况下实现可比较的模型质量。受到一些研究的启发,这些研究表明领域特定的训练文档选择实际上是一个可解释的过程[Gunasekar等人,2023],以及研究表明经过指导微调的LLM能够在零样本情况下进行数据标注[Gilardi等人,2023],我们探索了一种有前景的可扩展通用领域文档选择方法;我们将一个经过提示的LLM作为文档评分器,将质量标签提炼成一个分类器模型,并在大规模、已经经过严格过滤的网络爬取衍生语料库上自动应用。根据这个分类器的指导,我们舍弃了75%的语料库,并在剩余的数据上训练LLM。在多个基准测试中的结果表明:1. 过滤使我们能够在各种基准测试中使用最多70%的FLOPs来匹配在完整语料库上训练的模型的质量;2. 更强大的LLM标注器和分类器模型可以获得更好的结果,并且对标注器的提示不太敏感;3. 上下文学习有助于提高能力较弱的标注模型的性能。在所有情况下,我们使用开源数据集、模型、配方和评估框架,以便社区可以重现结果。

论文链接: https://arxiv.org/pdf/2406.04638

cs.CL: 基于关键元素的sLLM调优用于文档摘要

原标题: Key-Element-Informed sLLM Tuning for Document Summarization

作者: Sangwon Ryu, Heejin Do, Yunsu Kim, Gary Geunbae Lee, Jungseul Ok

机构: POSTECH, Graduate School of Artificial Intelligence, aiXplain Inc.

摘要: 大语言模型(LLMs)的显著进展使得高质量的文本摘要成为可能。然而,目前只有规模庞大的LLMs或收费的专有LLMs才能使用这种能力。为了解决这个问题,研究人员广泛研究了易于访问和低成本的小规模LLMs(sLLMs),但它们经常遭受关键信息和实体的缺失,即低相关性,特别是在输入文档很长的情况下。因此,我们提出了一种基于关键元素的指导调优方法,称为KEITSum,它能够识别文档中的关键元素,并指导sLLM生成捕捉这些关键元素的摘要。对对话和新闻数据集的实验结果表明,使用KEITSum的sLLM确实提供了高质量的摘要,具有更高的相关性和更少的虚构内容,与专有LLM相媲美。

论文链接: https://arxiv.org/pdf/2406.04625

cs.CL: 少样本学习与大语言模型在低资源跨语言摘要中的应用

原标题: Low-Resource Cross-Lingual Summarization through Few-Shot Learning with Large Language Models

作者: Gyutae Park, Seojin Hwang, Hwanhee Lee

机构: 中文名称:中央大学人工智能系
英文名称:Department of Artificial Intelligence, Chung-Ang University

摘要: 跨语言摘要(XLS)旨在生成与源语言文档不同的目标语言摘要。尽管大型语言模型(LLMs)在零样本XLS性能方面表现出了很大的潜力,但它们在这个任务上的少样本能力尚未被探索,尤其是对于具有有限平行数据的低资源语言。在本文中,我们研究了各种模型的少样本XLS性能,包括Mistral-7B-Instruct-v0.2、GPT-3.5和GPT-4。我们的实验表明,少样本学习显著提高了LLMs的XLS性能,特别是GPT-3.5和GPT-4,在低资源环境中尤为明显。然而,开源模型Mistral-7B-Instruct-v0.2在有限的示例下在适应XLS任务方面存在困难。我们的研究结果突出了少样本学习改善XLS性能的潜力,以及在设计针对这个任务的LLM架构和预训练目标方面需要进一步研究的需求。我们提供了一个未来的研究方向,即探索更有效的少样本学习策略,并研究LLMs在跨语言摘要中的迁移学习能力。

论文链接: https://arxiv.org/pdf/2406.04630

cs.CL: LawGPT:一个中文法律知识增强的大语言模型

原标题: LawGPT: A Chinese Legal Knowledge-Enhanced Large Language Model

作者: Zhi Zhou, Jiang-Xin Shi, Peng-Xiao Song, Xiao-Wen Yang, Yi-Xuan Jin, Lan-Zhe Guo, Yu-Feng Li

机构: 南京大学

摘要: 大语言模型(LLMs),包括专有和开源模型,在解决各种下游任务方面展示了出色的能力。然而,当涉及到实际的中国法律任务时,这些模型无法满足实际需求。专有模型无法确保敏感法律案件的数据隐私,而开源模型由于缺乏法律知识而表现不佳。为了解决这个问题,我们推出了LawGPT,这是第一个专门为中国法律应用而设计的开源模型。LawGPT包括两个关键组成部分:面向法律的预训练和法律监督微调。具体而言,我们使用大规模的中国法律文件进行面向法律的预训练,以融入法律领域知识。为了进一步提高模型在下游法律任务上的性能,我们创建了一个知识驱动的指令数据集用于法律监督微调。我们的实验结果表明,LawGPT的表现优于开源模型LLaMA 7B。我们的代码和资源公开可用,并在GitHub上获得了5.7K个星标。

论文链接: https://arxiv.org/pdf/2406.04614

Github: https://github.com/pengxiao-song/LaWGPT

cs.CL: 学习任务分解以帮助人类进行竞技编程

原标题: Learning Task Decomposition to Assist Humans in Competitive Programming

作者: Jiaxin Wen, Ruiqi Zhong, Pei Ke, Zhihong Shao, Hongning Wang, Minlie Huang

机构: 清华大学 加利福尼亚大学伯克利分校

摘要: 当使用语言模型(LM)解决复杂问题时,人类可能难以理解由LM生成的解决方案并修复有缺陷的方案。为了帮助人类修复这些方案,我们提出将复杂的解决方案自动分解为多个更简单的部分,这些部分对应于特定的子任务。我们引入了一种新的学习任务分解的目标,称为辅助值(AssistV),它衡量了人类修复分解方案的可行性和速度。我们收集了一个包含不同分解方案的人类修复经验数据集。利用收集到的数据作为上下文示例,我们学习批评、改进和排名分解方案以提高AssistV。我们在竞技编程问题中验证了我们的方法:在177小时的人类研究中,我们的方法使非专家能够解决更多的问题(增加了33.3%),加快了解决问题的速度(提高了3.3倍),并使他们能够与未经协助的专家相媲美。

论文链接: https://arxiv.org/pdf/2406.04604

cs.CL: SC2:在长文本风格转换中提升内容保留和风格一致性的研究

原标题: SC2: Towards Enhancing Content Preservation and Style Consistency in Long Text Style Transfer

作者: Jie Zhao, Ziyu Guan, Cai Xu, Wei Zhao, Yue Jiang

机构: 西安电子科技大学

摘要: 文本风格转换(TST)旨在在保留语义内容的同时改变文本的风格极性。尽管最近的进展在短文本风格转换方面取得了显著进步,但它仍然是一个相对简单的任务,具有有限的实际应用。更全面的长文本风格转换任务面临两个挑战:(1)现有方法在准确评估多个词中的内容属性时遇到困难,导致内容退化;(2)传统的基础风格分类器损失在维持多个生成句子之间的一致风格方面遇到障碍。

在本文中,我们提出了一种新方法SC2,其中设计了一个多层联合风格-内容加权(JSCW)模块和一个风格一致性损失来解决这两个问题。JSCW同时评估令牌中的风格和内容属性的数量,旨在获得无损的内容表示,从而增强内容保留。多个JSCW层进一步逐步改进内容表示。我们设计了一个风格一致性损失,以确保生成的多个句子始终反映目标风格极性。此外,我们还结合了一个去噪非自回归解码器来加速训练。我们进行了大量实验,结果显示SC2相对于竞争基线有显著改进。我们的代码:this https URL。

论文链接: https://arxiv.org/pdf/2406.04578

Github: https://github.com/jiezhao6/SC2

cs.CL: 外向还是内向?控制你的大语言模型的个性

原标题: Extroversion or Introversion? Controlling The Personality of Your Large Language Models

作者: Yanquan Chen, Zhen Wu, Junjie Guo, Shujian Huang, Xinyu Dai

机构: 南京大学 中国 人工智能学院

摘要: 大语言模型(LLMs)在文本生成和理解方面表现出强大的能力,模仿人类行为并展示出合成个性。然而,一些LLMs展示出冒犯性的个性,传播有害的言论。现有文献忽视了LLM个性的起源和演变,以及有效的个性控制方法。为了填补这些空白,我们的研究对LLM个性控制进行了全面调查。我们研究了几种影响LLMs的典型方法,包括三种训练方法:持续预训练、监督微调(SFT)和从人类反馈中强化学习(RLHF),以及推理阶段的考虑因素(提示)。我们的调查揭示了控制效果的层次结构:提示 > SFT > RLHF > 持续预训练。值得注意的是,与提示诱导相比,SFT表现出更高的控制成功率。虽然提示证明非常有效,但我们发现提示诱导的个性不如训练的个性稳定,更容易在反向个性提示诱导下显示出冲突的个性。此外,结合SFT和提示的优势,我们提出了PISF(Prompt Induction post Supervised Fine-tuning),这是控制LLMs个性最有效和最稳健的策略,具有高效性、高成功率和高稳健性。即使在反向个性提示诱导下,由PISF控制的LLMs仍然展示出稳定和稳健的个性。

论文链接: https://arxiv.org/pdf/2406.04583

cs.CL: SpaRC和SpaRP:用于理解大型语言模型的空间推理特征和路径生成的空间推理特征和路径生成

原标题: SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models

作者: Md Imbesat Hassan Rizvi, Xiaodan Zhu, Iryna Gurevych

机构: 德国达姆斯塔特工业大学计算机科学系普适知识处理实验室(UKP Lab)和AI赫森中心(hessian.AI)
加拿大女王大学电气与计算机工程系和Ingenuity Labs研究所

摘要: 空间推理是生物和人工智能的关键组成部分。在这项工作中,我们对当前最先进的大语言模型(LLMs)在空间推理方面的能力进行了全面研究。为了支持我们的研究,我们创建并贡献了一个新颖的空间推理特征化(SpaRC)框架和空间推理路径(SpaRP)数据集,以深入了解空间关系和组合以及空间推理链的有用性。我们发现,所有最先进的LLMs在数据集上表现不佳–它们的性能在不同的设置下始终很低。随着模型规模的扩大,空间推理能力显著提高。对大型语言模型(例如Llama-2-70B)和较小型模型(例如Llama-2-13B)进行微调可以显著提高它们的F1分数,提高幅度为7-32个绝对点。我们还发现,顶级专有LLMs在拓扑空间理解和推理方面仍然明显优于开源对应模型。

论文链接: https://arxiv.org/pdf/2406.04566

Github: https://github.com/ukplab/acl2024-sparc-and-sparp

cs.CL: 创建一个AI观察者:生成语义工作空间

原标题: Creating an AI Observer: Generative Semantic Workspaces

作者: Pavan Holur, Shreyas Rajesh, David Chong, Vwani Roychowdhury

机构: 加州大学洛杉矶分校

摘要: 一位经验丰富的人类观察者阅读文档(如犯罪报告),创建一个简洁的类似情节的“工作记忆”,其中包括不同的参与者,他们在任何时刻的典型角色和状态,他们基于相互作用的演变,甚至是一个预测未来缺失语义部分的地图。目前还没有等效的人工智能观察者。我们引入了生成式语义工作空间(GSW)——包括一个“操作者”和一个“调解者”——利用LLM的进展来创建一个生成式语义框架,而不是传统预定义的词汇标签集合。给定描述正在进行的情况的文本段落Cn,操作者实例化以参与者为中心的语义地图(称为“工作空间实例”Wn)。调解者解决Wn和“工作记忆”Mn之间的差异,生成更新的Mn+1。GSW在多个任务上优于众所周知的基准(与FST、GLEN、BertSRL相比,多句子语义提取约94%,与NLI-BERT相比约15%,与QA相比约35%)。通过模仿真实观察者,GSW为能够理解个体意图和预测未来行为的空间计算助手提供了第一步。

论文链接: https://arxiv.org/pdf/2406.04555

cs.CL: 关于歧义和法律的表达功能:语用学在智能法律生态系统中的作用

原标题: On Ambiguity and the Expressive Function of Law: The Role of Pragmatics in Smart Legal Ecosystems

作者: Pompeu Casanovas

机构: 西班牙国家研究委员会人工智能研究所 (IIIA-CSIC)
巴塞罗那自治大学法律与技术研究所 (IDT-UAB)
拉特罗布大学La Trobe LawTech研究小组

摘要: 这是一篇关于歧义、语用学、法律生态系统和法律表达功能的长篇论文。它分为两个部分和十五个章节。第一部分(语用学)从语言和认知语用学的角度讨论了法律领域中的歧义问题。第二部分(计算)从人本设计和人工智能的角度处理了这个问题,特别关注规则的概念和建模,以及遵守规则的含义。这对于智能法律生态系统(SLE)的搭建是必要的。我将以OPTIMAI为例,详细介绍其架构、信息流和智能生态系统,OPTIMAI是欧盟的一个工业4.0项目,旨在通过人工智能和虚拟化优化制造过程,实现零缺陷制造。

论文链接: https://arxiv.org/pdf/2406.05084

cs.CL: 3D-GRAND:为了更好地为3D-LLMs提供基础和减少幻觉

原标题: 3D-GRAND: Towards Better Grounding and Less Hallucination for 3D-LLMs

作者: Jianing Yang, Xuweiyi Chen, Nikhil Madaan, Madhavan Iyengar, Shengyi Qian, David F. Fouhey, Joyce Chai

机构: University of Michigan New York University

摘要: 语料翻译结果:
语言和3D感知的整合对于开发具有理解和与物理世界交互能力的具身代理和机器人至关重要。虽然大型语言模型(LLMs)展示了令人印象深刻的语言理解和生成能力,但它们在适应3D环境(3D-LLMs)方面仍处于早期阶段。一个主要挑战是缺乏提供语言和3D场景之间密集基础的大规模数据集。在本文中,我们介绍了3D-GRAND,这是一个开创性的大规模数据集,包括40,087个家庭场景和620万个密集基础的场景语言指令。我们的结果表明,使用3D-GRAND进行指令调整显著增强了3D-LLMs的基础能力,并减少了3D-LLMs中的幻觉。作为我们的贡献的一部分,我们提出了一个全面的基准测试3D-POPE,以系统评估3D-LLMs中的幻觉,从而实现未来模型之间的公平比较。我们的实验突出了数据集大小和3D-LLM性能之间的规模效应,强调了大规模3D文本数据集在推进具身AI研究中的关键作用。值得注意的是,我们的结果显示了有效的模拟到真实转移的早期信号,表明在大规模合成数据上训练的模型在真实世界的3D扫描上表现良好。通过3D-GRAND和3D-POPE,我们旨在为具身AI社区提供必要的资源和见解,为更可靠和更有基础的3D-LLMs奠定基础。项目网站:this https URL

论文链接: https://arxiv.org/pdf/2406.05132

Github: https://3d-grand.github.io

cs.CL: 引导式多目标跟踪

原标题: Bootstrapping Referring Multi-Object Tracking

作者: Yani Zhang, Dongming Wu, Wencheng Han, Xingping Dong

机构: 武汉大学 北京理工大学 澳门大学

摘要: 参考多目标跟踪(RMOT)旨在通过自然语言表达来检测和跟踪多个对象。现有的RMOT基准通常通过手动注释和静态规则来制定。这种方法导致了显著的多样性缺乏和实施范围受限。在这项工作中,我们的关键思想是尽可能引入有区别性的语言词汇来引导多目标跟踪任务。具体而言,我们首先将Refer-KITTI发展成一个大规模数据集,命名为Refer-KITTI-V2。它从2,719个手动注释开始,解决了类别不平衡的问题,并引入了更多的关键词,使其与真实世界的场景更接近。通过大型语言模型的提示,这些注释进一步扩展到总共9,758个,创建了617个不同的词汇,超过了以前的RMOT基准。此外,RMOT中的端到端框架也通过一种简单而优雅的时间推进策略进行引导,比以前的方法实现了更好的性能。源代码和数据集可在此https URL找到。

论文链接: https://arxiv.org/pdf/2406.05039

Github: https://github.com/zyn213/TempRMOT

cs.CL: I2EDL:交互式指令错误检测和定位

原标题: I2EDL: Interactive Instruction Error Detection and Localization

作者: Francesco Taioli, Stefano Rosa, Alberto Castellini, Lorenzo Natale, Alessio Del Bue, Alessandro Farinelli, Marco Cristani, Yiming Wang

摘要: 在连续环境中的视觉与语言导航(VLN-CE)任务中,人类用户通过一系列低级动作和自然语言的文本指令引导自主智能体达到目标目标。然而,大多数现有方法并未解决用户在提供指令时可能出现错误的情况(例如,将“向左转”误写为“向右转”)。在这项工作中,我们提出了一项新颖的交互式连续环境中的语言导航任务(IVLN-CE),允许智能体在VLN-CE导航过程中与用户进行交互,以验证指令错误。我们提出了一种交互式指令错误检测和定位器(I2EDL),它在导航过程中检测到指令错误时触发用户-智能体的交互。我们利用预训练模块来检测指令错误,并通过交叉参考文本输入和过去的观察来确定指令中的错误位置。通过这种方式,智能体能够及时向用户询问更正,而不会增加用户的认知负担,因为我们将可能的错误定位到指令的精确部分。我们在包含错误指令的数据集上评估了提出的I2EDL,并进一步设计了一种新的度量标准,即交互次数加权的成功度(SIN),以反映导航性能和交互效果。我们展示了提出的方法如何向用户提出专注的更正请求,从而提高导航成功率,同时最大限度地减少交互次数。

论文链接: https://arxiv.org/pdf/2406.05080

cs.CL: XTTS:一个大规模多语言零样本文本到语音模型

原标题: XTTS: a Massively Multilingual Zero-Shot Text-to-Speech Model

作者: Edresson Casanova, Kelly Davis, Eren Gölge, Görkem Göknar, Iulian Gulea, Logan Hart, Aya Aljafari, Joshua Meyer, Reuben Morais, Samuel Olayemi, Julian Weber

机构: Nvidia Coqui.ai Cantina.ai voize GmbH

摘要: 大多数零样本多说话人TTS(ZS-TTS)系统仅支持单一语言。尽管像YourTTS、VALL-E X、Mega-TTS 2和Voicebox这样的模型探索了多语言ZS-TTS,但它们仅限于少数高/中资源语言,限制了这些模型在大多数低/中资源语言中的应用。在本文中,我们旨在通过提出并公开XTTS系统来缓解这个问题。我们的方法基于Tortoise模型,并添加了几个新的修改,以实现多语言训练,改进语音克隆,并实现更快的训练和推理。XTTS在16种语言中进行了训练,并在其中大多数语言中取得了最先进的结果(SOTA)。

论文链接: https://arxiv.org/pdf/2406.04904

cs.CL: 基于大语言模型的说话人分割校正:一种通用的方法

原标题: LLM-based speaker diarization correction: A generalizable approach

作者: Georgios Efstathiadis, Vijay Yadav, Anzar Abbas

机构: IEEE

摘要: 说话者分离对于使用自动语音识别(ASR)工具转录的对话进行解释是必要的。尽管说话者分离方法有了显著的发展,但准确性仍然是一个问题。在这里,我们研究了使用大语言模型(LLMs)作为后处理步骤进行说话者分离校正的方法。LLMs使用Fisher语料库进行了微调,这是一个包含大量转录对话的数据集。我们测量了模型在一个保留数据集上提高说话者分离准确性的能力。我们报告了微调后的LLMs可以显著提高说话者分离准确性。然而,模型的性能受限于使用相同ASR工具生成的转录,限制了泛化能力。为了解决这个限制,我们开发了一个集成模型,通过组合来自三个不同ASR工具的转录的权重进行微调。集成模型表现出比每个ASR特定模型更好的整体性能,这表明可以实现一种通用且与ASR无关的方法。我们希望通过面向公众的API使这些模型可供第三方应用程序使用。

论文链接: https://arxiv.org/pdf/2406.04927

cs.CL: 看见无形:视频的视觉隐喻字幕

原标题: Seeing the Unseen: Visual Metaphor Captioning for Videos

作者: Abisek Rajakumar Kalarani, Pushpak Bhattacharyya, Sumit Shekhar

机构: 印度理工学院孟买分校 计算机科学与工程系 Adobe Research India

摘要: 隐喻是我们日常生活中常用的沟通工具。对于文本形式中的隐喻的检测和生成已经得到了广泛的研究,但其他形式的隐喻却鲜有探索。最近的研究表明,视觉语言(VL)模型无法理解迷因和广告中的视觉隐喻。目前还没有进行涉及视频等复杂语言现象(如隐喻)的探测研究。因此,我们在这项工作中引入了一个新的VL任务,即描述视频中存在的隐喻。为了促进这一新颖任务,我们构建并发布了一个手动创建的数据集,其中包含705个视频和2115个人工编写的标题,以及一个名为“平均概念距离(ACD)”的新指标,用于自动评估生成的隐喻的创造力。我们还提出了一种新颖的低资源视频隐喻字幕系统:GIT-LLaVA,在所提出的任务上获得了与SoTA视频语言模型相当的性能。我们对现有的视频语言模型在这个任务上进行了全面的分析,并发布了我们的数据集、模型和基准结果,以促进进一步的研究。

论文链接: https://arxiv.org/pdf/2406.04886

cs.CL: 零售点的数字助手

原标题: Digital assistant in a point of sales

作者: Emilia Lesiak, Grzegorz Wolny, Bartosz Przybył, Michał Szczerbak

机构: Orange Innovation Poland

摘要: 本文研究了在零售环境中部署基于语音用户界面(VUI)的数字助手,并评估其对客户参与度和服务效率的影响。该研究探讨了数字助手如何通过具备多语言支持的高级对话能力来增强用户互动。通过将数字助手整合到高流量的零售环境中,我们评估了其在提高客户服务质量和运营效率方面的效果。实验期间收集的数据显示了对客户互动的不同影响,揭示了数字助手技术在面向客户角色中的未来优化方向。本研究有助于理解客户关系领域的数字化转型策略,强调现代零售店铺中的服务灵活性和以用户为中心的设计的需求。

论文链接: https://arxiv.org/pdf/2406.04851

cs.CL: InstructNav: 在未探索环境中的通用指令导航的零样本系统

原标题: InstructNav: Zero-shot System for Generic Instruction Navigation in Unexplored Environment

作者: Yuxing Long, Wenzhe Cai, Hongcheng Wang, Guanqi Zhan, Hao Dong

机构: 北京大学 计算机科学学院 中国计算机科学研究中心 PKU-Agibot实验室 东南大学 自动化学院 牛津大学

摘要: 使机器人能够在未探索的环境中按照多样化的语言指令进行导航是人机交互的一个有吸引力的目标。然而,由于不同的导航任务需要不同的策略,这个目标是具有挑战性的。指令导航数据的稀缺性阻碍了使用多样化策略训练指令导航模型。因此,之前的方法都受限于一种特定类型的导航指令。在这项工作中,我们提出了InstructNav,一个通用的指令导航系统。InstructNav首次尝试处理各种类型的导航指令,而无需进行任何导航训练或预先构建地图。为了实现这个目标,我们引入了动态导航链(DCoN)来统一不同类型导航指令的规划过程。此外,我们提出了多源价值地图来模拟指令导航中的关键元素,以便将语言的DCoN规划转化为机器人可执行的轨迹。通过InstructNav,我们首次以零样本的方式完成了R2R-CE任务,并且在许多任务训练方法上表现出色。此外,InstructNav在零样本Habitat ObjNav上超过了之前的SOTA方法10.48%,在需求驱动导航DDN上超过了86.34%。在多样化的室内场景上进行的真实机器人实验进一步证明了我们方法在应对环境和指令变化方面的鲁棒性。

论文链接: https://arxiv.org/pdf/2406.04882

cs.CL: 零样本、有限样本和无限样本的心智理论推理在大语言模型中的信念历史

原标题: Zero, Finite, and Infinite Belief History of Theory of Mind Reasoning in Large Language Models

作者: Weizhi Tang, Vaishak Belle

机构: 爱丁堡大学

摘要: 大语言模型(LLMs)最近展示了理论心智(ToM)能力的潜力和出现,甚至在某些ToM任务中超过了人类。为了评估和扩展LLMs的ToM推理能力的边界,我们提出了一个新的概念、分类法和框架,即零、有限和无限信念历史的ToM推理,并开发了一个名为“选择正确的东西”的多轮基于文本的游戏作为基准。我们用这个游戏评估了六个LLMs,并发现它们在零信念历史上的表现一致优于有限信念历史上的表现。此外,我们发现两个参数较小的模型的表现优于所有评估模型中参数较大的模型。我们期望这项工作为未来的ToM基准开发铺平道路,同时也为促进和发展更复杂的需要具备更复杂ToM推理能力的AI智能体或系统做出贡献。

论文链接: https://arxiv.org/pdf/2406.04800

cs.CL: 生成式人工智能模型:对行业和机构的机遇和风险

原标题: Generative AI Models: Opportunities and Risks for Industry and Authorities

作者: Tobias Alt, Andrea Ibisch, Clemens Meiser, Anna Wilhelm, Raphael Zimmer, Christian Berghoff, Christoph Droste, Jens Karschau, Friederike Laus, Rainer Plaga, Carola Plesch, Britta Sennewald, Thomas Thaeren, Kristina Unverricht, Steffen Waurickå

摘要: 生成式AI模型能够执行一系列传统上需要创造力和人类理解力的任务。它们在训练过程中从现有数据中学习模式,并能够生成遵循这些模式的新内容,如文本、图像和音乐。由于其多功能性和通常高质量的结果,一方面它们代表了数字化的机遇。另一方面,使用生成式AI模型引入了新的IT安全风险,需要在综合分析与IT安全相关的威胁环境时予以考虑。为了应对这种风险潜力,使用这些模型的公司或机构在将生成式AI整合到工作流程中之前应进行个别风险分析。开发人员和运营商也应如此,因为在生成式AI的背景下,许多风险必须在开发时考虑,或者只能由运营公司来影响。基于此,可以调整现有的安全措施,并采取额外的措施。

论文链接: https://arxiv.org/pdf/2406.04734

cs.CL: PQPP:文本到图像提示和查询性能预测的联合基准测试

原标题: PQPP: A Joint Benchmark for Text-to-Image Prompt and Query Performance Prediction

作者: Eduard Poesina, Adriana Valentina Costache, Adrian-Gabriel Chifu, Josiane Mothe, Radu Tudor Ionescu

机构: 布加勒斯特大学 布加勒斯特大学 Aix-Marseille大学 图卢兹让·若尔斯大学 布加勒斯特大学

摘要: 最近,由于生成扩散模型在视觉上给人留下了深刻的印象,文本到图像生成逐渐成为文本到图像检索的可行替代方案。尽管查询性能预测是信息检索中一个活跃的研究课题,但据我们所知,还没有先前的研究分析文本到图像生成中查询(提示)的难度,基于人类判断。为此,我们首次引入了一个数据集,其中的提示以图像生成性能为基础进行手动注释。为了确定相同提示在图像检索中的难度,我们还收集了代表检索性能的手动注释。因此,我们提出了第一个联合文本到图像提示和查询性能预测的基准,包含10K个查询。我们的基准可以实现:(i)比较评估图像生成和图像检索中提示/查询的难度,以及(ii)评估既涉及生成又涉及检索的提示/查询性能预测器。我们提供了几个预生成/检索和后生成/检索性能预测器的结果,从而为未来的研究提供了竞争基线。我们的基准和代码在CC BY 4.0许可下公开可用,链接为https://。

论文链接: https://arxiv.org/pdf/2406.04746

Github: https://github.com/Eduard6421/PQPP

cs.CL: 多模态大语言模型中的文本和声音组件的推理研究:MLLMs听到了什么?

原标题: What do MLLMs hear? Examining reasoning with text and sound components in Multimodal Large Language Models

作者: Enis Berk Çoban, Michael I. Mandel, Johanna Devaney

机构: The Graduate Center, CUNY Brooklyn College, CUNY

摘要: 大语言模型(LLMs)展示了出色的推理能力,尤其是在连接思想和遵循逻辑规则以解决问题方面。这些模型已经发展到可以适应各种数据模态,包括声音和图像,被称为多模态LLMs(MLLMs),它们能够描述图像或声音录音。先前的研究表明,当MLLMs中的LLM组件被冻结时,音频或视觉编码器用于为声音或图像输入生成字幕,从而促进与LLM组件的基于文本的推理。我们有兴趣利用LLM的推理能力来促进分类。在本文中,我们通过一个字幕/分类实验证明了音频MLLM在生成音频字幕时无法充分利用其LLM的基于文本的推理能力。我们还考虑到这可能是由于MLLMs分别表示听觉和文本信息,从而切断了从LLM到音频编码器的推理路径。

论文链接: https://arxiv.org/pdf/2406.04615

cs.CL: 基于音高感知的RNN-T用于普通话错误发音检测和诊断

原标题: Pitch-Aware RNN-T for Mandarin Chinese Mispronunciation Detection and Diagnosis

作者: Xintong Wang, Mingqian Shi, Ye Wang

机构: 新加坡国立大学计算机学院

摘要: 发音错误检测和诊断(MDD)系统利用自动语音识别(ASR)在汉语普通话中面临两个主要挑战:1)两阶段模型在音素或音调分类阶段和MDD阶段之间创建了信息差。2)汉语MDD数据集的稀缺性限制了模型的训练。在本文中,我们介绍了一种用于汉语MDD的无状态RNN-T模型,利用通过Pitch Fusion Block的音高嵌入的HuBERT特征。我们的模型仅在本地说话者数据上进行训练,在非本地场景中显示出3%的电话错误率改进和7%的误接受率增加,超过了最先进的基线水平。

论文链接: https://arxiv.org/pdf/2406.04595

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/寸_铁/article/detail/899906
推荐阅读
相关标签
  

闽ICP备14008679号