神奇cpp

这个屌丝很懒，什么也没留下！

热门标签

2024年5月30日Arxiv最新大语言模型相关论文_contextual position encoding: learning to count

作者：神奇cpp | 2024-06-23 11:47:20

踩

contextual position encoding: learning to count

cs.CL: MAP-Neo：高性能和透明的双语大语言模型系列

原标题: MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series

作者: Ge Zhang, Scott Qu, Jiaheng Liu, Chenchen Zhang, Chenghua Lin, Chou Leuang Yu, Danny Pan, Esther Cheng, Jie Liu, Qunshu Lin, Raven Yuan, Tuney Zheng, Wei Pang, Xinrun Du, Yiming Liang, Yinghao Ma, Yizhi Li, Ziyang Ma, Bill Lin, Emmanouil Benetos, Huan Yang, Junting Zhou, Kaijing Ma, Minghao Liu, Morry Niu, Noah Wang, Quehry Que, Ruibo Liu, Sine Liu, Shawn Guo, Soren Gao, Wangchunshu Zhou, Xinyue Zhang, Yizhi Zhou, Yubo Wang, Yuelin Bai, Yuhan Zhang, Yuxiang Zhang, Zenith Wang, Zhenzhu Yang, Zijian Zhao, Jiajun Zhang, Wanli Ouyang, Wenhao Huang, Wenhu Chen

摘要: 大语言模型（LLMs）近年来在不同任务上取得了前所未有的性能。然而，由于商业利益，像GPT、Gemini和Claude等最具竞争力的模型已经被封装在专有接口后面，没有披露训练细节。最近，许多机构已经开源了几个强大的LLMs，比如LLaMA-3，与现有的闭源LLMs相媲美。然而，大多数细节（如中间检查点、预训练语料库和训练代码等）仍未披露，只提供了模型的权重。为了提高LLMs的透明度，研究界已经开始开源真正开放的LLMs（如Pythia、Amber、OLMo），提供了更多细节（如预训练语料库和训练代码）。这些模型极大地推动了对这些大型模型的科学研究，包括它们的优势、劣势、偏见和风险。然而，我们观察到，现有的关于推理、知识和编码任务的真正开放的LLMs仍然不如具有相似模型大小的现有最先进的LLMs。因此，我们开源了MAP-Neo，这是一个具有70亿参数的高性能、透明的双语言模型，从头开始在45万亿高质量标记上进行训练。我们的MAP-Neo是第一个完全开源的双语言LLM，性能与现有最先进的LLMs相媲美。此外，我们开源了所有细节以重现我们的MAP-Neo，提供了经过清理的预训练语料库、数据清洗流水线、检查点以及经过良好优化的训练/评估框架。最后，我们希望我们的MAP-Neo将增强和加强开放研究社区，并激发更多的创新和创造力，促进LLMs的进一步改进。

论文链接: https://arxiv.org/pdf/2405.19327

cs.CL: 最近邻推测解码用于大语言模型生成和归因

原标题: Nearest Neighbor Speculative Decoding for LLM Generation and Attribution

作者: Minghan Li, Xilun Chen, Ari Holtzman, Beidi Chen, Jimmy Lin, Wen-tau Yih, Xi Victoria Lin

摘要: 大语言模型（LLMs）经常会产生幻觉，并且缺乏为其生成提供归因的能力。kNN-LM等半参数LM可以通过在非参数数据存储中使用其最近邻匹配来改进给定提示的LM的输出，从而解决这些限制。然而，这些模型通常表现出较慢的推理速度，并生成不流畅的文本。在本文中，我们介绍了最近邻推测解码（NEST），这是一种新颖的半参数语言建模方法，能够将任意长度的现实文本范围合并到LM生成中，并为其来源提供归因。NEST在每个推理步骤执行令牌级检索，计算半参数混合分布，并在语料库中识别有前途的跨度延续。然后，它使用一种近似的推测解码过程，接受检索跨度的前缀或生成新的令牌。NEST显著提高了基础LM在各种知识密集型任务中的生成质量和归因率，超越了传统的kNN-LM方法，并与上下文检索增强竞争性地表现。此外，NEST大幅提高了生成速度，在应用于Llama-2-Chat 70B时，推理时间实现了1.8倍的加速。

论文链接: https://arxiv.org/pdf/2405.19325

cs.CL: 大语言模型是变色龙吗？

原标题: Are Large Language Models Chameleons?

作者: Mingmeng Geng, Sihong He, Roberto Trotta

机构: 国际高等研究学院 (SISSA) UT阿灵顿帝国理工学院伦敦

摘要: 大语言模型（LLMs）是否有自己的世界观和个性倾向？对LLM进行主观问题回答的模拟进行了100多万次。将来自不同LLM的回答与欧洲社会调查（ESS）的真实数据进行比较，表明提示对偏见和变异性的影响是根本的，突出了主要的文化、年龄和性别偏见。讨论了衡量LLM与调查数据之间差异的方法，例如计算加权平均值和受Jaccard相似性启发的新提出的度量。我们得出结论，重要的是在使用LLM模拟个体决策或集体行为之前分析提示的稳健性和变异性，因为它们的模仿能力充其量是近似的。

论文链接: https://arxiv.org/pdf/2405.19323

cs.CL: 专家引导的毒性标记灭绝，用于去偏见生成

原标题: Expert-Guided Extinction of Toxic Tokens for Debiased Generation

作者: Xueyao Sun, Kaize Shi, Haoran Tang, Guandong Xu, Qing Li

机构: 香港理工大学悉尼科技大学香港教育大学

摘要: 大语言模型（LLMs）在生成过程中可能会引发社会偏见，特别是在使用有毒提示进行推理时。在生成过程中控制敏感属性遇到数据分布、泛化能力和效率方面的挑战。具体来说，微调和检索需要大量无偏见的语料库，而直接提示则需要精心策划的指令来在多轮思考中纠正输出，但会对内存和推理延迟造成挑战。在这项工作中，我们提出了基于专家引导的去除有毒标记的去偏生成（EXPOSED）方法，以消除LLMs的不良输出，而无需前述要求。EXPOSED基于丰富的有毒语料构建了一个去偏专家，以暴露和引发潜在危险的标记。然后，它处理LLMs的输出，并通过抑制和减弱有毒标记来构建公平分布。EXPOSED在三个LLM系列上进行了公平性基准测试。大量实验证明，与其他基线相比，所提出的EXPOSED显著减少了潜在的社会偏见，同时平衡了公平性和生成性能。

论文链接: https://arxiv.org/pdf/2405.19299

cs.CL: 将基于字节的神经机器翻译中的多尺度上下文信息整合起来

原标题: Integrating Multi-scale Contextualized Information for Byte-based Neural Machine Translation

作者: Langlin Huang, Yang Feng

摘要: 子词标记化是神经机器翻译（NMT）模型中常见的词汇构建方法。然而，越来越复杂的任务揭示了其缺点。首先，一旦学习了词汇表，就无法修改它，这使得难以适应新词。其次，在多语言翻译中，不同语言数据量的不平衡传播到词汇表中，加剧了涉及低资源语言的翻译困难。虽然基于字节的标记化解决了这些问题，但基于字节的模型在 UTF-8 字节序列固有的低信息密度方面存在困难。先前的工作通过局部上下文化增强了标记语义，但未能根据输入选择适当的上下文化范围。因此，我们提出了多尺度上下文化（MSC）方法，该方法在不同隐藏状态维度上学习不同尺度的上下文化信息。然后利用注意力模块动态集成多尺度上下文化信息。实验证明，MSC在多语言和域外场景中明显优于基于子词和其他基于字节的方法。代码可以在此 https URL 中找到。

论文链接: https://arxiv.org/pdf/2405.19290

Github: https://github.com/ictnlp/Multiscale-Contextualization

cs.CL: 大规模多语言抽象意义表示：用于幻觉检测的数据集和基线

原标题: MASSIVE Multilingual Abstract Meaning Representation: A Dataset and Baselines for Hallucination Detection

作者: Michael Regan, Shira Wein, George Baker, Emilio Monti

机构: 华盛顿大学亚马逊大学科罗拉多分校维京大学

摘要: 抽象意义表示（AMR）是一种捕捉话语核心含义的语义形式主义。在英语和最近跨越多种语言中，已经有大量工作在开发AMR语料库，尽管现有数据集规模有限，收集更多注释的成本是禁止的。考虑到工程和科学问题，我们介绍了MASSIVE-AMR，这是一个拥有超过84,000个文本到图形注释的数据集，目前是其类别中最大和最多样化的：对1,685个信息寻求话语的AMR图形进行了映射，涵盖50多种类型多样的语言。我们描述了我们如何构建我们的资源及其独特特性，然后报告了使用大型语言模型进行多语言AMR和SPARQL解析的实验，以及将AMR应用于幻觉检测在知识库问答的背景下，结果揭示了使用LLMs进行结构化解析时的持久问题。

论文链接: https://arxiv.org/pdf/2405.19285

cs.CL: 儿科GPT：大语言模型作为儿科应用的中文医疗助手

原标题: PediatricsGPT: Large Language Models as Chinese Medical Assistants for Pediatric Applications

作者: Dingkang Yang, Jinjie Wei, Dongling Xiao, Shunli Wang, Tong Wu, Gang Li, Mingcheng Li, Shuaibing Wang, Jiawei Chen, Yue Jiang, Qingyao Xu, Ke Li, Peng Zhai, Lihua Zhang

摘要: 开发智能儿科咨询系统为改善诊断效率提供了有希望的前景，特别是在中国，医疗资源匮乏的情况下。尽管近年来在中文医学领域出现了大语言模型（LLMs）的进展，但由于指导数据不足和训练程序容易受损，它们在儿科应用中的表现并不理想。为了解决上述问题，本文构建了PedCorpus，这是一个高质量的数据集，包括来自儿科教科书、指南和知识图谱资源的30万多任务指导。基于精心设计的PedCorpus，我们提出了PediatricsGPT，这是第一个基于系统化和健壮的训练流程构建的中文儿科大语言模型助手。在持续的预训练阶段，我们引入了混合指导预训练机制，以减轻大语言模型在医学领域适应中注入的内部知识不一致性。随后，我们利用全参数监督微调（SFT）将一般医学知识模式纳入模型。之后，我们设计了直接跟随偏好优化，以增强生成类似儿科医生的人性化回应。在参数高效的次级SFT阶段，我们提出了通用特定专家策略的混合，以解决医学全科医生和儿科专业知识掌握之间的竞争冲突。基于指标、GPT-4和不同医生下游任务的医生评估，广泛的结果显示PediatricsGPT在一致优于之前的中文医学大语言模型。我们的模型和数据集将开放源代码供社区开发使用。

论文链接: https://arxiv.org/pdf/2405.19266

cs.CL: AlchemistCoder: 通过事后调整多源数据的代码能力进行和谐与引发

原标题: AlchemistCoder: Harmonizing and Eliciting Code Capability by Hindsight Tuning on Multi-source Data

作者: Zifan Song, Yudong Wang, Wenwei Zhang, Kuikun Liu, Chengqi Lyu, Demin Song, Qipeng Guo, Hang Yan, Dahua Lin, Kai Chen, Cairong Zhao

摘要: 开源的大语言模型（LLMs）及其专门的变体，特别是代码LLMs，最近展现出了令人印象深刻的性能。然而，先前的代码LLMs通常是在单一数据源上进行微调，数据质量和多样性有限，这可能不足以激发预训练代码LLMs的潜力。在本文中，我们提出了AlchemistCoder，这是一系列在多源数据上进行微调的具有增强代码生成和泛化能力的代码LLMs。为了实现这一目标，我们首创揭示多源代码语料库中各种风格和质量之间固有冲突，并引入了具有事后重标记的数据特定提示，称为AlchemistPrompts，以协调不同的数据源和指令-响应对。此外，我们提出将数据构建过程纳入微调数据中作为代码理解任务，包括指令演变、数据过滤和代码审查。大量实验证明，AlchemistCoder在所有相同规模模型（6.7B/7B）中处于领先地位，并且与更大的模型（15B/33B/70B）相媲美甚至超越，展示了我们的方法在完善指令遵循能力并推动代码智能边界的有效性。

论文链接: https://arxiv.org/pdf/2405.19265

Github: https://github.com/internlm/alchemistcoder

cs.CL: 弱到强搜索：通过在小语言模型上进行搜索来对齐大语言模型

原标题: Weak-to-Strong Search: Align Large Language Models via Searching over Small Language Models

作者: Zhanhui Zhou, Zhixuan Liu, Jie Liu, Zhichen Dong, Chao Yang, Yu Qiao

摘要: 大语言模型通常会被微调以与人类偏好对齐。然而，微调大语言模型可能具有挑战性。在这项工作中，我们引入了“从弱到强的搜索”，将大语言模型的对齐框架作为一个测试时的贪婪搜索，以最大化小调整和未调整模型之间的对数似然差异，同时从冻结的大模型中进行采样。这种方法既可以作为（i）一种计算高效的模型扩展策略，避免直接调整大模型，也可以作为（ii）一种从弱到强的泛化实例，通过弱的测试时引导增强强模型。从经验上看，我们展示了从弱到强搜索在不同任务中的灵活性。在受控情感生成和摘要生成中，我们使用微调和未调整的gpt2有效地改善了大模型的对齐，而无需额外训练。至关重要的是，在更困难的指令遵循基准测试AlpacaEval 2.0中，我们展示了重复使用现成的小模型对（例如zephyr-7b-beta及其未调整版本）可以显著提高白盒和黑盒大模型对抗gpt-4-turbo（例如Llama-3-70B-Instruct的胜率从34.4提高到37.9，gpt-3.5-turbo-instruct的胜率从16.0提高到20.1），尽管小模型的胜率约为10.0。

论文链接: https://arxiv.org/pdf/2405.19262

cs.CL: 通过推测解码实现更快的级联

原标题: Faster Cascades via Speculative Decoding

作者: Harikrishna Narasimhan, Wittawat Jitkrittum, Ankit Singh Rawat, Seungyeon Kim, Neha Gupta, Aditya Krishna Menon, Sanjiv Kumar

机构: 谷歌研究、纽约谷歌研究

摘要: 级联和推测解码是改进语言模型推理效率的两种常见方法。这两种方法都涉及交替使用不同大小的模型，但通过基本不同的机制：级联采用延迟规则，仅对“困难”输入调用更大的模型，而推测解码使用推测执行，主要以并行验证模式调用更大的模型。这些机制提供不同的好处：经验上，级联通常能够产生比更大模型甚至更好的质量，而理论上，推测解码提供了质量中立的保证。在本文中，我们通过设计新的推测级联技术，实现了通过推测执行实施其延迟规则的最佳方法。我们对我们的推测级联的最佳延迟规则进行了表征，并采用了最佳规则的插件近似。通过在基准语言任务上使用T5模型进行实验，我们展示了所提出的方法比级联和推测解码基线产生更好的成本-质量折衷。

论文链接: https://arxiv.org/pdf/2405.19261

cs.CL: 对循环神经语言模型表达能力的下界

原标题: Lower Bounds on the Expressivity of Recurrent Neural Language Models

作者: Anej Svete, Franz Nowak, Anisha Mohamed Sahabdeen, Ryan Cotterell

机构: 苏黎世联邦理工学院

摘要: 最近大型神经语言模型（LMs）的成功和传播需要对它们的计算能力进行深入理解。通过LMs的\emph{表示能力}描述它们的计算能力是一个活跃的研究领域。然而，对神经LMs的表示能力的调查主要集中在它们识别形式语言的能力上。例如，具有Heaviside激活的循环神经网络（RNNs）与正则语言紧密相关，即由有限状态自动机（FSAs）定义的语言。然而，这样的结果未能描述RNN \emph{语言模型}（LMs）的能力，这些模型在定义上是字符串的\emph{分布}。我们通过将RNN LMs与\emph{概率}FSAs联系起来，重新审视了RNN LMs的表示能力，并证明具有线性有界精度的RNN LMs可以表达任意的正则LMs。

论文链接: https://arxiv.org/pdf/2405.19222

cs.CL: WRDScore：用于评估自然语言生成模型的新指标

原标题: WRDScore: New Metric for Evaluation of Natural Language Generation Models

作者: Ravil Mussabayev

摘要: 自然语言生成的问题，特别是方法名称预测，在需要在测试数据上评估提出的模型时面临重大困难。这样的度量标准需要考虑单个方法命名的多样性，包括语义和语法。直接衡量预测序列和参考（真实）序列之间的重叠将无法捕捉这些微妙之处。其他现有基于嵌入的度量标准要么不衡量精确度和召回率，要么对两个序列都施加严格且不切实际的假设。为了解决这些问题，我们提出了一种新的度量标准，一方面非常简单且轻量级，另一方面能够在不依赖任何假设的情况下计算精确度和召回率，同时在人类判断方面表现良好。

论文链接: https://arxiv.org/pdf/2405.19220

cs.CL: DGRC: 一种有效的中文多项选择阅读理解中干扰项生成的微调框架

原标题: DGRC: An Effective Fine-tuning Framework for Distractor Generation in Chinese Multi-choice Reading Comprehension

作者: Runfeng Lin, Dacheng Xu, Huijiang Wang, Zebiao Chen, Yating Wang, Shouqiang Liu

摘要: 在评估学习者的知识熟练度时，多项选择题是标准化测试中高效且广泛使用的格式。然而，生成这些问题，特别是合理的干扰项（错误选项），存在着相当大的挑战。一般来说，干扰项生成可以分为填空式干扰项生成（CDG）和自然问题干扰项生成（NQDG）。与CDG相比，利用预训练语言模型（PLMs）进行NQDG面临三个主要挑战：（1）PLMs通常被训练用于生成“正确”的内容，如答案，而很少被训练用于生成“合理”的内容，如干扰项；（2）PLMs经常难以产生与特定知识和考试风格相吻合的内容；（3）NQDG需要模型生成更长、上下文相关且与问题相关的干扰项。在这项研究中，我们介绍了一个名为DGRC的微调框架，用于来自真实考试的中文多项选择阅读理解中的NQDG。DGRC包括三个主要组成部分：硬链式思维、多任务学习和生成掩码模式。实验结果表明，DGRC显著提升了生成性能，BLEU分数实现了超过2.5倍的改进。

论文链接: https://arxiv.org/pdf/2405.19139

cs.CL: PathReasoner: 使用等效扩展建模推理路径，用于逻辑问题回答

原标题: PathReasoner: Modeling Reasoning Path with Equivalent Extension for Logical Question Answering

作者: Fangzhi Xu, Qika Lin, Tianzhe Zhao, Jiawei Han, Jun Liu

摘要: 逻辑推理任务自提出以来就引起了极大的兴趣。面对这样的任务，当前的竞争模型，甚至包括大语言模型（例如ChatGPT和PaLM 2），仍然表现不佳。先前有希望的语言模型在逻辑一致性建模和逻辑结构感知方面遇到了困难。为此，我们通过将每个逻辑样本转换为推理路径来建模逻辑推理任务，并提出了一种名为\textbf{PathReasoner}的架构。它从数据和模型的角度解决了这一任务。为了扩展逻辑样本的多样性，我们提出了一个由等价逻辑公式支持的原子扩展策略，以形成新的推理路径。从模型的角度看，我们设计了一堆叠的Transformer风格模块。特别地，我们提出了一个路径注意力模块，通过高阶扩散策略来联合建模原子内部和跨原子关系。实验证明，PathReasoner在两个逻辑推理基准测试上取得了竞争性能，并具有很强的泛化能力。

论文链接: https://arxiv.org/pdf/2405.19109

cs.CL: 使用ChaTS-Pi进行忠实的图表摘要

原标题: Faithful Chart Summarization with ChaTS-Pi

作者: Syrine Krichene, Francesco Piccinno, Fangyu Liu, Julian Martin Eisenschlos

摘要: 图表到摘要生成可以帮助探索数据，传达见解，并帮助视觉受损的人群。多模态生成模型已被用于生成流畅的摘要，但可能存在事实和感知错误。在这项工作中，我们提出了CHATS-CRITIC，一个用于评分忠实度的无参考图表摘要度量标准。CHATS-CRITIC由一个图像到文本模型和一个用于逐句评分摘要的表格蕴涵模型组成。我们发现，CHATS-CRITIC比基于参考的度量标准（无论是学习还是基于n-gram的）更好地根据人类评分评估摘要质量，并且可以进一步用于通过删除不受支持的句子来修复候选摘要。然后，我们介绍了CHATS-PI，一个图表到摘要的流水线，在推断过程中利用CHATS-CRITIC来修复和排名来自任何图表摘要模型的抽样候选项。我们使用人类评分者评估了CHATS-PI和CHATS-CRITIC，在两个流行的图表到摘要数据集上建立了最先进的结果。

论文链接: https://arxiv.org/pdf/2405.19094

cs.CL: 多阶段检索和重新排序模型用于自动医学编码推荐

原标题: Multi-stage Retrieve and Re-rank Model for Automatic Medical Coding Recommendation

作者: Xindi Wang, Robert E. Mercer, Frank Rudzicz

摘要: 国际疾病分类（ICD）作为一个确定性医学分类系统，涵盖了广泛的疾病和病况。ICD索引的主要目标是为医疗记录分配一部分ICD代码，从而促进各种健康状况的标准化文档记录和管理。大多数现有方法在从一个极其庞大的ICD集合中选择适当的标签子集时遇到困难，因为这些集合具有重尾标签分布。在本文中，我们利用一个多阶段的“检索和重新排序”框架作为ICD索引的新颖解决方案，通过混合离散检索方法检索候选项，并使用对比学习重新排序检索到的候选项，使模型能够从简化的标签空间中做出更准确的预测。检索模型是电子健康记录（EHR）的辅助知识和离散检索方法（BM25）的混合体，可以高效地收集高质量的候选项。在最后阶段，我们提出了一个标签共现引导的对比重新排序模型，通过将带有正ICD代码的临床记录聚集在一起，重新排列候选标签。实验结果表明，所提出的方法在MIMIC-III基准测试中在多项指标上取得了最先进的性能。

论文链接: https://arxiv.org/pdf/2405.19093

cs.CL: 破译并列的密码：AI模型能理解幽默的矛盾吗？

原标题: Cracking the Code of Juxtaposition: Can AI Models Understand the Humorous Contradictions

作者: Zhe Hu, Tuo Liang, Jing Li, Yiren Lu, Yunlai Zhou, Yiran Qiao, Jing Ma, Yu Yin

摘要: 最近大型多模态语言模型的最新进展在各种任务中展现出了非凡的能力。然而，这些模型在理解人类幽默的微妙之处方面仍然存在困难，特别是当涉及到支撑许多笑话和幽默线索的非线性叙事时。本文通过关注具有矛盾叙事的漫画来探讨这一挑战，其中每部漫画由两个面板组成，制造了一个幽默的矛盾。我们引入了YesBut基准测试，其中包括各种难度的任务，旨在评估人工智能在识别和解释这些漫画方面的能力，从文字内容理解到深层叙事推理。通过对最近的商业或开源大型（视觉）语言模型进行广泛的实验和分析，我们评估它们理解这些漫画中固有叙事幽默的复杂相互作用的能力。我们的结果表明，即使是最先进的模型在这项任务上仍然落后于人类表现。我们的发现为当前人工智能在理解人类创造性表达方面的局限性和潜在改进提供了见解。

论文链接: https://arxiv.org/pdf/2405.19088

cs.CL: MEMoE: 使用专家混合适配器增强模型编辑

原标题: MEMoE: Enhancing Model Editing with Mixture of Experts Adaptors

作者: Renzhi Wang, Piji Li

摘要: 模型编辑旨在有效地改变大语言模型（LLMs）的行为，同时确保不会对其他输入产生不良影响。近年来，提出了各种模型编辑方法。然而，这些方法要么表现出整体性能较差，要么在泛化和局部性之间难以取得平衡。我们提出了MOMoE，一种利用混合专家（MoE）架构和知识锚路由策略的模型编辑适配器。MOMoE使用旁路MoE结构更新知识，保持原始参数不变以保留LLMs的一般能力。而知识锚路由确保需要相似知识的输入被路由到同一专家，从而增强更新知识的泛化能力。实验结果显示，我们的方法在批量编辑和顺序批量编辑任务上优于其他方法，表现出卓越的整体性能以及在泛化和局部性之间出色的平衡。我们的代码将会公开。

论文链接: https://arxiv.org/pdf/2405.19086

cs.CL: 辅助知识诱导学习用于自动多标签医学文档分类

原标题: Auxiliary Knowledge-Induced Learning for Automatic Multi-Label Medical Document Classification

作者: Xindi Wang, Robert E. Mercer, Frank Rudzicz

摘要: 国际疾病分类（ICD）是一种权威的医学分类系统，用于临床和管理目的中不同疾病和病况的分类。ICD索引将一组ICD代码分配给医疗记录。由于人工编码需要大量劳动且容易出错，许多研究采用机器学习来自动化编码过程。ICD编码是一项具有挑战性的任务，因为它需要从一个极其庞大的分层组织集合中为每个医疗文件分配多个代码。在本文中，我们提出了一种采用三种思想的ICD索引新方法：（1）我们使用多级深度扩张残差卷积编码器来汇总临床笔记中的信息，并学习跨不同文本长度的文档表示；（2）我们将ICD分类任务形式化，辅助医疗记录的知识，不仅包括临床文本，还包括不同的临床代码术语和药物处方，以更好地推断ICD代码；（3）我们引入图卷积网络来利用ICD代码之间的共现模式，旨在增强标签表示的质量。实验结果表明，所提出的方法在多项指标上实现了最先进的性能。

论文链接: https://arxiv.org/pdf/2405.19084

cs.CL: BLSP-KD: 通过知识蒸馏引导语言-语音预训练

原标题: BLSP-KD: Bootstrapping Language-Speech Pre-training via Knowledge Distillation

作者: Chen Wang, Minpeng Liao, Zhongqiang Huang, Jiajun Zhang

机构: 中国科学院自然语言处理研究所阿里巴巴集团中国科学院大学

摘要: 最近的端到端方法显示了将大语言模型（LLMs）扩展到语音输入方面的潜力，但面临直接评估和优化对齐质量的限制，并且由于语音文本长度不匹配而无法实现细粒度对齐。我们引入了BLSP-KD，一种通过知识蒸馏引导语言-语音预训练的新方法，通过两种关键技术解决了这些限制。首先，通过最小化LLM对语音和文本输入的下一个标记预测分布之间的差异来优化语音文本对齐，使用知识蒸馏。其次，它采用了一种连续集成和触发策略，将语音分割成与文本标记一一对应的标记，实现了细粒度对齐。我们还引入了Partial LoRA（PLoRA），一种支持LLM在知识蒸馏下对语音输入进行微调的新适应方法。定量评估显示，BLSP-KD优于先前的端到端基线和具有可比参数规模的级联系统，为具有语音输入的LLMs提供了通用指令遵循能力。这种方法为将LLMs扩展到口语交互提供了新的可能性。

论文链接: https://arxiv.org/pdf/2405.19041

cs.CL: 评估大语言模型的外部和参数化知识融合

原标题: Evaluating the External and Parametric Knowledge Fusion of Large Language Models

作者: Hao Zhang, Yuyang Zhang, Xiaoguang Li, Wenxuan Shi, Haonan Xu, Huanshuo Liu, Yasheng Wang, Lifeng Shang, Qun Liu, Yong Liu, Ruiming Tang

机构: 华为技术有限公司 Noah’s Ark Lab

摘要: 将外部知识整合到大语言模型（LLMs）中，可以有效克服其古老和静态参数化记忆所带来的局限性，这是一个有前途的解决方案。然而，先前的研究往往过分依赖外部知识，低估了大语言模型固有参数化知识的宝贵贡献。大语言模型在融合外部和参数化知识方面的有效性仍然大部分未被探索，特别是在外部知识不完整并需要通过参数化知识进行补充的情况下。我们提出将知识融合分解为四种不同的场景，首次全面调查了大语言模型在每种场景下的行为。我们开发了一个系统化的数据构建和知识注入流程，以模拟这些融合场景，促进一系列受控实验。我们的调查结果显示，增强大语言模型内部的参数化知识可以显著增强其知识整合能力。然而，我们发现在记忆和引出参数化知识以及确定参数化知识边界方面存在持续的挑战。我们的发现旨在引导未来对大语言模型内部外部和参数化知识协调的探索。

论文链接: https://arxiv.org/pdf/2405.19010

cs.CL: 通过概念流编码分层模式以进行多方面意识形态检测

原标题: Encoding Hierarchical Schema via Concept Flow for Multifaceted Ideology Detection

作者: Songtao Liu, Bang Wang, Wei Xiang, Han Xu, Minghua Xu

机构: 华中科技大学新华中科技大学

摘要: 多面向意识形态检测（MID）旨在检测文本对多个方面的意识形态倾向。先前关于意识形态检测的研究主要集中在一个通用方面，并忽略了标签语义和意识形态的解释描述，这些是一种指导性信息，揭示了意识形态的具体概念。在本文中，我们为MID任务开发了一个新颖的概念语义增强框架。具体来说，我们提出了一个双向迭代概念流（BICo）方法来编码多面向意识形态。BICo使概念能够在模式树的不同级别之间流动，并用多粒度语义丰富概念表示。此外，我们探索了概念注意匹配和概念引导对比学习策略，以指导模型捕获具有学习概念语义的意识形态特征。对基准数据集的大量实验表明，我们的方法在MID中取得了最先进的性能，包括跨主题场景。

论文链接: https://arxiv.org/pdf/2405.18974

cs.CL: 你确定吗？再次排名：为更好的偏好数据集重复排名

原标题: Are You Sure? Rank Them Again: Repeated Ranking For Better Preference Datasets

作者: Peter Devine

机构: Lightblue KK 大型语言模型（LLM）训练大型语言模型（LLM）的强化学习来自人工智能反馈（RLAIF）将模型输出与人类偏好更加密切地对齐。

摘要: 使用强化学习从AI反馈中训练大型语言模型（LLMs）可以使模型输出更贴近人类偏好。这涉及到一个评估模型对用户提示的多个候选响应进行排名。然而，像GPT-4这样的流行评估模型的排名可能不一致。我们提出了重复排名方法 - 我们多次评估相同的响应，并仅在那些一致排名的响应上进行训练。在62种语言中使用2,714个提示，我们从7个顶级多语言LLMs生成响应，并让GPT-4对每个响应进行五次排名。在六种语言的MT-Bench聊天基准测试中进行评估，我们的方法优于在所有可用提示上进行训练的标准做法。我们的工作突出了在RLAIF数据集生成中质量与数量之间的权衡，并提供了一种增强数据集和模型质量的可堆叠策略。

论文链接: https://arxiv.org/pdf/2405.18952

cs.CL: 从解码目标的角度理解和解决翻译不足的问题

原标题: Understanding and Addressing the Under-Translation Problem from the Perspective of Decoding Objective

作者: Chenze Shao, Fandong Meng, Jiali Zeng, Jie Zhou

机构: Pattern Recognition Center WeChat AI Tencent Inc

摘要: 神经机器翻译（NMT）在过去几年取得了显著进展。然而，在最先进的NMT系统中，欠翻译和过翻译仍然是两个具有挑战性的问题。在这项工作中，我们对NMT中欠翻译的潜在原因进行了深入分析，从解码目标的角度提供了一个解释。为了优化波束搜索目标，模型倾向于忽略它对于的词语不太自信的情况，导致了欠翻译现象。相应地，当发生欠翻译时，模型对于预测句子结束（EOS）的信心会降低，作为对欠翻译候选项的轻微惩罚。基于这一分析，我们提出利用预测EOS的信心作为欠翻译的检测器，并加强基于信心的惩罚，以惩罚那些有很高欠翻译风险的候选项。对合成数据和真实数据的实验表明，我们的方法可以准确检测和纠正欠翻译的输出，在对其他正确翻译的影响较小。

论文链接: https://arxiv.org/pdf/2405.18922

cs.CL: 朝着忠实的思维链路：大语言模型正在架起推理者

原标题: Towards Faithful Chain-of-Thought: Large Language Models are Bridging Reasoners

作者: Jiachun Li, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao

机构: 中国科学院大学中国科学院自动化研究所

摘要: 大语言模型（LLMs）存在严重的不忠实的思维链（CoT）问题。先前的工作尝试衡量和解释它，但缺乏对CoTs内部的深入分析，并未考虑所有推理组件之间的交互作用。在本文中，我们首先研究了CoT忠实性问题在CoT步骤的粒度上，确定了两种推理范式：集中式推理和分布式推理，并发现它们与忠实性的关系。随后，我们对推理过程中上下文、CoT和答案之间的因果关系进行了联合分析。结果证明，当LLM预测答案时，它可以从上下文中召回CoT中缺失的正确信息，导致不忠实性问题。最后，我们提出了推理桥接方法来缓解这一问题，其中我们使用归因方法来召回信息作为CoT生成的提示，并根据它们的语义一致性和归因分数来过滤出嘈杂的CoTs。大量实验证明，我们的方法有效地缓解了不忠实的CoT问题。

论文链接: https://arxiv.org/pdf/2405.18915

cs.CL: 使用严格适当的评分规则进行语言生成

原标题: Language Generation with Strictly Proper Scoring Rules

作者: Chenze Shao, Fandong Meng, Yijin Liu, Jie Zhou

机构: 清华大学哈尔滨工业大学

摘要: 基于最大似然估计（MLE）的语言生成已成为文本生成的基本方法。最大似然估计通常通过最小化对数似然损失来执行，也被称为统计决策理论中的对数分数。对数分数在严格意义上是适当的，因为它鼓励诚实的预测，只有当模型报告真实概率时，期望分数才会最大化。尽管存在许多严格适当的评分规则，但对数分数是其中唯一一个仅取决于观察样本概率的局部评分规则，使其能够处理自然文本的指数级大样本空间。在这项工作中，我们提出了一种简单的策略，用于将评分规则调整到语言生成中，允许使用任何非局部评分规则进行语言建模。利用这种策略，我们使用两种经典的严格适当的评分规则，Brier分数和Spherical分数，作为对数分数的替代方案来训练语言生成模型。实验结果表明，仅仅替换损失函数，而不调整其他超参数，就可以显著提高模型的生成能力。此外，这些改进可以扩展到大型语言模型（LLMs），如LLaMA-7B和LLaMA-13B。源代码：\url{this https URL}。

论文链接: https://arxiv.org/pdf/2405.18906

Github: https://github.com/shaochenze/ScoringRulesLM

cs.CL: 模拟、建模和分类维基贡献者：识别优秀、糟糕和丑陋者

原标题: Simulation, Modelling and Classification of Wiki Contributors: Spotting The Good, The Bad, and The Ugly

作者: Silvia García Méndez, Fátima Leal, Benedita Malheiro, Juan Carlos Burguillo Rial, Bruno Veloso, Adriana E. Chis, Horacio González Vélez

机构: 维戈大学阿特兰蒂克信息技术组波尔图大学理工学院国立爱尔兰学院

摘要: 数据众包是一种数据获取过程，其中自愿贡献者组向平台提供高度相关的数据，范围从新闻、评论和媒体到知识和分类。它通常处理用户生成的数据流，以提供和完善诸如维基百科、协作地图、电子商务网站和社交网络等热门服务。然而，这种操作方式引发了对恶意数据操纵在对抗环境中的严重关注。本文提出了一种模拟、建模和分类方法，通过使用数据制造来平衡实验数据集中的类别，进行自动识别人类和非人类（机器人），以及良性和恶性贡献者，同时利用数据流建模来构建和更新贡献者档案，最终实现自主数据流分类。通过利用WikiVoyage - 一个向公众开放的免费全球维基旅行指南作为实验平台，我们的方法证明通过使用包含真实和合成数据的类平衡数据流，显著提高了分类器的置信度和质量。我们的实证结果表明，所提出的方法能够以高达92%的分类准确率区分良性和恶性机器人以及人类贡献者。

论文链接: https://arxiv.org/pdf/2405.18845

cs.CL: 免费毒性检测

原标题: Toxicity Detection for Free

作者: Zhanhao Hu, Julien Piet, Geng Zhao, Jiantao Jiao, David Wagner

摘要: 当前的大语言模型通常遵循安全要求，并倾向于拒绝有毒提示。然而，大语言模型可能会拒绝有毒提示，或者过于谨慎地拒绝良性示例。此外，最先进的毒性检测器在低假阳性率下具有较低的真阳性率，在毒性示例稀少的实际应用中产生高成本。在本文中，我们探讨了使用大语言模型内省（MULI）进行调节，从而利用直接从大语言模型中提取的信息来检测有毒提示。我们发现良性和有毒提示在替代拒绝响应的分布以及第一个响应标记的logits分布中存在显著差异。这些差异可以用来检测毒性：我们展示了一个基于特定起始标记logits的玩具模型能够获得可靠的性能，而无需训练或额外的计算成本。我们使用第一个响应标记logits上的稀疏逻辑回归模型构建了一个更健壮的检测器，其在多个指标下远远超过了最先进的检测器。

论文链接: https://arxiv.org/pdf/2405.18822

cs.CL: 大语言模型自然语言处理的通用屏障

原标题: Genshin: General Shield for Natural Language Processing with Large Language Models

作者: Xiao Peng, Tao Liu, Ying Wang

机构: 长安汽车前瞻技术研究所

摘要: 大语言模型（LLMs）如ChatGPT、Gemini或LLaMA最近一直很流行，展示了在无数领域中的相当进步和泛化能力。然而，LLMs创造了一个更大的黑匣子，加剧了不透明性，解释能力仅限于少数方法。LLMs固有的不确定性和不透明性限制了它们在金融欺诈、网络钓鱼等高风险领域的应用。当前的方法主要依赖于传统的文本分类和后验可解释算法，受到攻击者的影响，他们可能创建多功能对抗样本来破坏系统的防御，迫使用户在效率和稳健性之间进行权衡。为了解决这个问题，我们提出了一个名为Genshin（大语言模型自然语言处理的通用防护）的新型级联框架，利用LLMs作为防御性一次性插件。与大多数LLMs的应用试图将文本转化为新的或结构化的内容不同，Genshin使用LLMs将文本恢复到其原始状态。Genshin旨在结合LLM的泛化能力、中位模型的区分能力和简单模型的可解释性。我们在情感分析和垃圾邮件检测任务上的实验显示了当前中位模型的致命缺陷，以及LLMs的恢复能力的令人振奋的结果，证明了Genshin既有效又高效。在我们的消融研究中，我们发现了一些有趣的观察结果。利用来自第四范式的LLM防御者工具，我们在自然语言处理的第三范式中复现了BERT的15%最佳掩码率结果。此外，当将LLM作为潜在的对抗工具时，攻击者能够执行几乎语义上无损失的有效攻击。

论文链接: https://arxiv.org/pdf/2405.18741

cs.CL: 反向图像检索提示在多模态LLM中的参数化记忆

原标题: Reverse Image Retrieval Cues Parametric Memory in Multimodal LLMs

作者: Jialiang Xu, Michael Moor, Jure Leskovec

机构: 斯坦福大学

摘要: 尽管最近多模态大语言模型（MLLMs）取得了令人印象深刻的进展，但诸如GPT-4套件的最先进模型仍然在知识密集型任务上面临困难。为了解决这个问题，我们考虑了逆向图像检索（RIR）增强生成，这是一种简单而有效的策略，通过利用网络规模的逆向图像搜索结果来增强MLLMs。在开放式VQA评估指标方面，RIR显著改善了GPT-4V的知识密集型视觉问答（VQA）37-43％，GPT-4 Turbo 25-27％，以及GPT-4o 18-20％。令我们惊讶的是，我们发现RIR有助于模型更好地访问自己的世界知识。具体而言，我们的实验表明，RIR增强通过提供进一步的视觉和文本线索来帮助，而不一定包含查询的直接答案。此外，我们阐明了RIR可能损害性能的情况，并进行了人类评估。最后，我们发现使用RIR的整体优势使得一个可以选择使用RIR来表现更好的智能体比RIR是默认设置的方法更难。

论文链接: https://arxiv.org/pdf/2405.18740

cs.CL: CtrlA: 自适应检索增强生成：通过探针引导控制

原标题: CtrlA: Adaptive Retrieval-Augmented Generation via Probe-Guided Control

作者: Huanshuo Liu, Hao Zhang, Zhijiang Guo, Kuicai Dong, Xiangyang Li, Yi Quan Lee, Cong Zhang, Yong Liu

摘要: 检索增强生成（RAG）已成为一种有希望的解决方案，可以通过检索外部知识来减轻大语言模型（LLMs）的幻觉。自适应RAG通过动态评估检索的必要性，旨在平衡外部和内部知识的使用。然而，现有的自适应RAG方法主要通过依赖基于表面文本或基于概率的LLMs反馈，或者通过精心设计的数据集直接微调LLMs来实现按需检索，导致检索必要性决策不可靠，额外成本高昂，响应生成次优。我们首次尝试深入研究LLMs的内部状态，以减轻这些问题，通过引入一种有效的探针引导自适应RAG框架，称为CtrlA。具体而言，CtrlA利用诚实探针通过操纵其表示来调节LLM的行为以增加诚实度，并使用信心探针监视LLM的内部状态并评估信心水平，在生成过程中确定检索的必要性。实验证明，CtrlA在各种任务上优于现有的自适应RAG方法，诚实控制可以有效使LLMs更加诚实，信心监控被证明是检索触发的一个有希望的指标。我们的代码可在此 https URL 上找到。

论文链接: https://arxiv.org/pdf/2405.18727

Github: https://github.com/HSLiu-Initial/CtrlA.git https://github.com/hsliu-initial/ctrla

cs.CL: 上下文位置编码：学习计算重要内容

原标题: Contextual Position Encoding: Learning to Count What’s Important

作者: Olga Golovneva, Tianlu Wang, Jason Weston, Sainbayar Sukhbaatar

摘要: 注意机制是大语言模型（LLMs）的关键组成部分，它允许序列中的标记相互交互，但是不受顺序影响。加入位置编码（PE）使得可以按位置进行处理，比如关注第i个标记。然而，当前的位置编码方法使用标记计数来推导位置，因此无法推广到更高层次的抽象，比如关注第i个句子。在本文中，我们提出了一种新的位置编码方法，即上下文位置编码（CoPE），它允许位置根据模型确定的某些标记而被条件化于上下文。这允许更一般的位置处理，比如关注第 $i$ 个特定单词、名词或句子。我们展示了CoPE可以解决选择性复制、计数和Flip-Flop任务，而流行的位置嵌入失败，并且改善了语言建模和编码任务的困惑度。

论文链接: https://arxiv.org/pdf/2405.18719

cs.CL: 通过贝叶斯说服实现高效的模型无关对齐

原标题: Efficient Model-agnostic Alignment via Bayesian Persuasion

作者: Fengshuo Bai, Mingzhi Wang, Zhaowei Zhang, Boyuan Chen, Yinda Xu, Ying Wen, Yaodong Yang

机构: 上海交通大学北京大学通用人工智能国家重点实验室

摘要: 最近大语言模型（LLMs）的进展使得对齐成为一种保持大语言模型与人类意图一致的有效技术。目前的方法主要涉及通过监督微调（SFT）或从人类反馈中进行强化学习（RLHF）的直接训练，这两种方法都需要大量的计算资源和广泛的地面真实数据。本文探讨了一种使用较小模型对齐黑盒大模型的高效方法，引入了一个与模型无关且轻量级的贝叶斯说服对齐框架。我们将这个问题形式化为从小模型的角度优化信号策略。在说服过程中，小模型（顾问）观察信息项（即状态）并说服大模型（接收者）引发改进的响应。接收者然后根据输入、顾问的信号和其对信息项的更新信念生成响应。通过使用我们的框架进行训练，我们证明了顾问可以显著提高各种接收者在一系列任务中的性能。我们在理论上分析了我们的说服框架，并对顾问的后悔提供了一个上界，证实了其在学习最佳信号策略方面的有效性。我们的实证结果表明，GPT-2可以显著提高各种模型的性能，在数学推理能力方面平均提高了16.1%，在代码生成方面提高了13.7%。我们希望我们的工作可以为从贝叶斯说服的角度重新思考对齐框架提供一个初始步骤。

论文链接: https://arxiv.org/pdf/2405.18718

cs.CL: 能够重新定义医学理解吗？评估 GPT 在生物医学机器阅读理解上的表现

原标题: Can GPT Redefine Medical Understanding? Evaluating GPT on Biomedical Machine Reading Comprehension

作者: Shubham Vatsal, Ayush Singh

机构: inQbator人工智能（位于eviCore Healthcare）
Evernorth健康服务

摘要: 大语言模型（LLMs）在不同领域的许多任务中表现出了显著的性能。然而，它们在封闭书籍生物医学机器阅读理解（MRC）方面的表现尚未得到深入评估。在这项工作中，我们评估了GPT在四个封闭书籍生物医学MRC基准上的表现。我们尝试了不同的传统提示技术，并引入了我们自己的新颖提示方法。为了解决LLMs固有的一些检索问题，我们提出了一种名为隐式检索增强生成（RAG）的提示策略，它减轻了在传统RAG设置中使用向量数据库来检索重要片段的需求。此外，我们对我们方法的自然语言生成输出进行了定性评估。结果表明，我们的新提示技术能够在四个数据集中的两个中获得最佳性能，并在其余两个中排名第二。实验表明，像GPT这样的现代LLMs甚至在零样本设置中也能胜过监督模型，在两个基准测试中取得了新的最先进结果。

论文链接: https://arxiv.org/pdf/2405.18682

cs.CL: X-VILA：大语言模型的跨模态对齐

原标题: X-VILA: Cross-Modality Alignment for Large Language Model

作者: Hanrong Ye, De-An Huang, Yao Lu, Zhiding Yu, Wei Ping, Andrew Tao, Jan Kautz, Song Han, Dan Xu, Pavlo Molchanov, Hongxu Yin

机构: NVIDIA HKUST MIT

摘要: 我们介绍了 X-VILA，这是一个全模态模型，旨在通过整合图像、视频和音频模态来扩展大语言模型（LLMs）的能力。通过将模态特定的编码器与LLM输入对齐，并将扩散解码器与LLM输出对齐，X-VILA实现了跨模态的理解、推理和生成。为了促进这种跨模态对齐，我们整理了一个有效的交错的任意-任意模态指令跟随数据集。此外，我们发现了当前跨模态对齐方法存在一个重要问题，导致了视觉信息的丢失。为了解决这个问题，我们提出了一个具有视觉嵌入高速公路模块的视觉对齐机制。然后，我们介绍了一个资源高效的 X-VILA 训练方法，展现出在任意-任意模态对话中的熟练表现，远远超过以往的方法。X-VILA还展示了跨模态的新属性，即使在缺乏相似训练数据的情况下也能实现。该项目将开源。

论文链接: https://arxiv.org/pdf/2405.19335

cs.CL: 大语言模型遇见多模态生成和编辑：一项调查

原标题: LLMs Meet Multimodal Generation and Editing: A Survey

作者: Yingqing He, Zhaoyang Liu, Jingye Chen, Zeyue Tian, Hongyu Liu, Xiaowei Chi, Runtao Liu, Ruibin Yuan, Yazhou Xing, Wenhai Wang, Jifeng Dai, Yong Zhang, Wei Xue, Qifeng Liu, Yike Guo, Qifeng Chen

摘要: 最近大语言模型（LLMs）的进展引起了将LLMs与多模态学习相结合的兴趣。以往对多模态大语言模型（MLLMs）的调查主要集中在理解上。本调查详细阐述了跨不同领域的多模态生成，包括图像、视频、3D和音频，在这些领域中我们突出了这些领域中具有里程碑意义的重要进展。具体而言，我们详尽调查了这些研究中使用的方法和多模态数据集背后的关键技术组成部分。此外，我们深入探讨了工具增强的多模态智能体，这些智能体可以利用现有的生成模型进行人机交互。最后，我们还全面讨论了人工智能安全的进展，并调查了新兴应用以及未来前景。我们的工作提供了对多模态生成的系统性和富有洞察力的概述，预计将推动用于生成内容（AIGC）和世界模型的人工智能发展。所有相关论文的精选列表可在此 https URL 找到。

论文链接: https://arxiv.org/pdf/2405.19334

Github: https://github.com/YingqingHe/Awesome-LLMs-meet-Multimodal-Generation

cs.CL: 通过奖励模型蒸馏实现健壮的偏好优化

原标题: Robust Preference Optimization through Reward Model Distillation

作者: Adam Fisch, Jacob Eisenstein, Vicky Zayats, Alekh Agarwal, Ahmad Beirami, Chirag Nagpal, Pete Shaw, Jonathan Berant

机构: 谷歌DeepMind

摘要: 语言模型（LM）的后训练（或对齐）涉及最大化源自偏好注释的奖励函数。直接偏好优化（DPO）是一种流行的离线对齐方法，它直接在偏好数据上训练策略，无需训练奖励模型或应用强化学习。然而，典型的偏好数据集每个偏好对仅有一个，或最多几个注释，这导致DPO过于自信地分配趋向无限大小的奖励。这经常导致退化策略，有时甚至导致首选生成的概率变为零。在这项工作中，我们分析了这一现象，并提出蒸馏来获得更好的代理，以代表生成对的真实偏好分布：我们训练LM生成与在偏好数据上训练的奖励模型诱导的分布相匹配的概率。此外，为了考虑我们正在蒸馏的奖励模型中的不确定性，我们针对一组奖励模型进行优化，整体上可能包含至少一个合理的偏好分布代理。我们的结果表明，从这样一组奖励模型中蒸馏可以提高对偏好注释中分布转移的鲁棒性，同时保持DPO的简单监督性质。

论文链接: https://arxiv.org/pdf/2405.19316

cs.CL: 母巢查询Transformer用于大视觉语言模型

原标题: Matryoshka Query Transformer for Large Vision-Language Models

作者: Wenbo Hu, Zi-Yi Dou, Liunian Harold Li, Amita Kamath, Nanyun Peng, Kai-Wei Chang

机构: 加州大学洛杉矶分校

摘要: 大视觉-语言模型（LVLMs）通常将图像编码为固定数量的视觉标记（例如576个），并使用语言模型处理这些标记。尽管它们表现出色，但LVLMs在适应不同计算约束方面面临挑战。这引发了一个问题：我们是否可以在视觉标记的数量上实现灵活性，以适应不同的任务和计算资源？我们的回答是一个坚定的“是”。受到母婴娃娃表征学习的启发，我们引入了母婴娃娃查询Transformer（MQT），能够在推断期间将图像编码为m个视觉标记，其中m可以是预定义最大值之内的任意数量。这是通过利用具有M个潜在查询标记的查询Transformer来压缩视觉嵌入实现的。在每个训练步骤中，我们随机选择m <= M个潜在查询标记，并仅使用这些第一个m个标记来训练模型，丢弃其余的标记。将MQT与LLaVA相结合，我们仅训练一次单个模型，并在维持类似或更好性能的同时，在推断时灵活且大幅减少视觉标记的数量，而不是为每个标记数量单独训练独立模型。我们的模型MQT-LLAVA在11个基准测试中使用最多256个标记与LLaVA-1.5性能相匹配，而不是LLaVA的固定576个标记。将标记减少到16个（TFLOPs减少8倍）仅在MMBench上牺牲了2.4个点的性能。在某些任务中，例如ScienceQA和MMMU，我们甚至可以将视觉标记减少到仅有2个，性能下降仅分别为3%和6%。我们对由视觉标记数量带来的准确性和计算成本之间的权衡进行的探索，有助于未来研究实现两全其美。

论文链接: https://arxiv.org/pdf/2405.19315

Github: https://github.com/gordonhu608/mqt-llava

cs.CL: 训练用于进行算术的语言模型预测人类的风险和时间选择。

原标题: Language Models Trained to do Arithmetic Predict Human Risky and Intertemporal Choice

作者: Jian-Qiao Zhu, Haijiang Yan, Thomas L. Griffiths

摘要: 观察到人类和大语言模型（LLMs）行为上的相似性促使研究人员考虑利用LLMs作为人类认知模型的潜力。然而，在LLMs被正当地视为认知模型之前，必须解决几个重要挑战。例如，LLMs接受的训练数据远远超过人类通常遇到的数据，并且可能直接在特定认知任务上接受了人类数据的训练或与人类偏好对齐。因此，这些行为相似性的起源尚不为人所了解。在本文中，我们提出了一种增强LLMs作为认知模型实用性的新方法。这种方法涉及（i）利用计算上等价的任务，LLM和理性智能体都需要掌握以解决认知问题，以及（ii）研究LLM展现人类行为所需的具体任务分布。我们将这种方法应用于决策制定——特别是风险和时间选择——其中关键的计算上等价任务是期望值计算的算术。我们展示了一个在生态有效算术数据集上预训练的LLM，我们称之为算术-GPT，比许多传统认知模型更好地预测人类行为。在生态有效算术数据集上预训练LLMs足以产生这些模型与人类决策制定之间的强关联。我们的结果还表明，将LLMs用作认知模型时，应通过去除预训练数据的研究进行仔细调查。

论文链接: https://arxiv.org/pdf/2405.19313

cs.CL: VideoTree：用于大语言模型在长视频上推理的自适应基于树的视频表示

原标题: VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos

作者: Ziyang Wang, Shoubin Yu, Elias Stengel-Eskin, Jaehong Yoon, Feng Cheng, Gedas Bertasius, Mohit Bansal

摘要: 视频语言理解任务通常关注短视频剪辑，往往难以处理长视频理解任务。最近，许多长视频语言理解方法利用大语言模型（LLMs）的推理能力执行长视频问答，将视频转换为密集采样的帧标题，并要求LLMs回答关于标题的文本查询。然而，用于标题的帧通常是冗余的并包含无关信息，使得密集采样效率低下，并忽视了视频问答需要不同粒度级别的事实，其中一些视频片段与问题高度相关（需要更精细的细节），而其他则不太相关。因此，这些基于LLM的方法容易遗漏信息，并在大量无关标题上运行，降低了性能和效率。为了解决这些问题，我们引入了VideoTree，这是一个用于长视频理解的查询自适应和分层框架，与LLMs一起使用。VideoTree动态从视频中提取与查询相关的信息，并为LLM推理构建基于树的表示。首先，VideoTree通过迭代地根据它们的视觉特征对帧进行聚类并使用它们与查询相关性进行评分，自适应地选择帧进行标题。其次，它将视觉聚类组织成一个查询自适应和分层树结构；树对不同粒度级别进行编码，对相关片段具有更高分辨率。最后，VideoTree通过遍历树的关键帧并将它们的标题传递给LLM回答者来生成答案。我们的方法相比现有方法提高了推理准确性和效率：在EgoSchema、NExT-QA和IntentQA基准测试中，VideoTree分别比基线提高了7.0%、2.2%和2.7%的准确率，同时将推理时间缩短了40%。

论文链接: https://arxiv.org/pdf/2405.19209

cs.CL: 元标记：通过元分类检测图像描述中的虚构

原标题: MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification

作者: Laura Fieback (1,2), Jakob Spiegelberg (1), Hanno Gottschalk (2) ((1) Volkswagen AG, (2) TU Berlin)

机构: 大众汽车股份有限公司柏林工业大学

摘要: 大视觉语言模型（LVLMs）在多模态任务中表现出了显著的能力，比如视觉问答或图像描述。然而，视觉信息和生成的文本之间的不一致性，即所谓的幻觉现象，仍然是关于LVLM可信度的一个未解决的问题。为了解决这个问题，最近的研究提出了在句子或子句级别上合并计算成本高昂的大（视觉）语言模型，以便检测幻觉。在这项工作中，我们介绍了MetaToken，这是一个轻量级的二元分类器，可以以可忽略的成本在标记级别上检测幻觉。基于统计分析，我们揭示了在先前的工作中被忽视的LVLMs中幻觉的关键因素。MetaToken可以应用于任何开源的LVLM，而无需了解关于地面真实数据的任何知识，从而可靠地检测幻觉。我们在四个最先进的LVLM上评估了我们的方法，证明了我们方法的有效性。

论文链接: https://arxiv.org/pdf/2405.19186

cs.CL: Cephalo: 用于生物启发材料分析和设计的多模态视觉语言模型

原标题: Cephalo: Multi-Modal Vision-Language Models for Bio-Inspired Materials Analysis and Design

作者: Markus J. Buehler

摘要: 我们介绍了 Cephalo，这是一系列为材料科学应用而设计的多模态视觉大语言模型（V-LLMs），将视觉和语言数据整合在一起，以增强人工智能与多智能体框架内的理解和交互。Cephalo 的一个关键创新是其先进的数据集生成方法，采用复杂算法准确检测和分离图像及其对应的文本描述，例如科学论文中的PDF文档。该方法通过集成视觉和语言处理对图像文本对进行精心的完善，确保高质量、上下文相关和合理推理的训练数据。Cephalo 是在从成千上万篇科学论文和以科学为中心的维基百科页面中提取的整合图像和文本数据上进行训练的，展示了它能够解释复杂的视觉场景，生成精确的语言描述，并有效地回答有关图像的查询。视觉编码器与自回归Transformer的结合支持综合模型中的复杂自然语言理解，可以与其他生成方法结合，创建图像到文本到图像或图像到文本到3D管道。为了探索从较小模型发展到更大模型，我们合并了来自不同预训练源模型的层集。这种混合方法使我们能够利用领域专业知识和一般对话能力，以利用多个模型的优势。我们在包括生物材料、断裂和工程分析、蛋白质生物物理学以及基于昆虫行为的生物启发设计在内的多种用例中检验了这些模型。生成应用包括生物启发设计，包括受花粉启发的构造材料，以及从日食照片中合成生物启发材料微结构。

论文链接: https://arxiv.org/pdf/2405.19076

cs.CL: DiveR-CT: 带有放松约束的增强多样性红队行动

原标题: DiveR-CT: Diversity-enhanced Red Teaming with Relaxing Constraints

作者: Andrew Zhao, Quentin Xu, Matthieu Lin, Shenzhi Wang, Yong-jin Liu, Zilong Zheng, Gao Huang

摘要: 最近大语言模型（LLMs）的最新进展使它们变得不可或缺，引发了对管理其安全性的重大关注。自动化红队提供了一种有前途的替代方案，可以取代繁重且容易出错的手动漏洞探测，提供更一致和可扩展的安全评估。然而，现有方法往往通过专注于最大化攻击成功率来牺牲多样性。此外，通过减少与历史嵌入的余弦相似度并激励语义多样性的方法会导致新颖性停滞随着历史的增长。为了解决这些问题，我们引入了DiveR-CT，它放宽了对目标和语义奖励的传统约束，为策略提供了更大的自由度以增强多样性。我们的实验表明，DiveR-CT在以下方面明显优于基线：1）生成的数据在不同攻击成功率水平上在各种多样性指标上表现更好，2）通过基于收集数据的安全调整更好地增强了蓝队模型的弹性，3）允许动态控制目标权重以获得可靠和可控的攻击成功率，4）减少对奖励过度优化的敏感性。项目详细信息和代码可在此 https URL 找到。

论文链接: https://arxiv.org/pdf/2405.19026

Github: https://andrewzh112.github.io/#diverct

cs.CL: EasyAnimate：基于Transformer架构的高性能长视频生成方法

原标题: EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture

作者: Jiaqi Xu, Xinyi Zou, Kunzhe Huang, Yunkuo Chen, Bo Liu, MengLi Cheng, Xing Shi, Jun Huang

摘要: 本文介绍了EasyAnimate，这是一种先进的视频生成方法，利用Transformer架构的强大功能实现高性能结果。我们扩展了最初设计用于2D图像合成的DiT框架，以适应3D视频生成的复杂性，其中包括一个运动模块块。它用于捕捉时间动态，从而确保生成一致的帧和无缝的运动过渡。运动模块可以适应各种DiT基线方法，以生成具有不同风格的视频。它还可以在训练和推断阶段生成具有不同帧率和分辨率的视频，适用于图像和视频。此外，我们引入了切片VAE，这是一种压缩时间轴的新方法，有助于生成长时间视频。目前，EasyAnimate表现出生成144帧视频的能力。我们提供了基于DiT的视频制作全面生态系统，涵盖数据预处理、VAE训练、DiT模型训练（基线模型和LoRA模型）、以及端到端视频推断等方面。代码可在此https URL获取。我们将持续努力提升我们方法的性能。

论文链接: https://arxiv.org/pdf/2405.18991

Github: https://github.com/aigc-apps/EasyAnimate

cs.CL: Kestrel: 针对部分感知的三维视觉-语言理解的点定位多模态大语言模型

原标题: Kestrel: Point Grounding Multimodal LLM for Part-Aware 3D Vision-Language Understanding

作者: Junjie Fei, Mahmoud Ahmed, Jian Ding, Eslam Mohamed Bakr, Mohamed Elhoseiny

机构: 阿卜杜拉国王科技大学

摘要: 尽管 3D MLLMs 取得了显著进展，但它们仅限于对象和场景理解，并且在部分层面上理解 3D 空间结构方面存在困难。在本文中，我们介绍了 Kestrel，这是一种新颖方法，赋予 3D MLLMs 具备部分感知理解的能力，从而实现更好地解释和分割 3D 对象的部分层面。尽管具有重要意义，但当前的研究领域缺乏赋予和评估这种能力的任务和数据集。因此，我们提出了两个新颖任务：（1）部分感知点定位，模型的任务是根据用户指令直接预测部分层面的分割蒙版；（2）部分感知点定位字幕生成，模型提供包括部分层面描述及其相应蒙版的详细字幕。为了支持这些任务的学习和评估，我们引入了 3DCoMPaT Grounded Instructions 数据集（3DCoMPaT-GRIN）。3DCoMPaT-GRIN Vanilla 包含 789k 个部分感知点云-指令-分割蒙版三元组，用于评估 MLLMs 的部分感知分割定位能力。3DCoMPaT-GRIN Grounded Caption 包含 107k 个部分感知点云-指令-定位字幕三元组，评估了 MLLMs 的部分感知语言理解和分割定位能力。我们提出的任务、数据集和 Kestrel 代表了一项初步努力，以弥合人类认知与 3D MLLMs 之间的差距，即在全局和部分层面上感知和与环境互动的能力。对 3DCoMPaT-GRIN 的大量实验表明，Kestrel 能够生成用户指定的分割蒙版，这是任何现有 3D MLLM 中都不具备的能力。因此，Kestrel 建立了一个基准，用于评估 3D 对象的部分感知语言理解和分割定位。项目页面位于此 https URL

论文链接: https://arxiv.org/pdf/2405.18937

Github: https://feielysia.github.io/Kestrel.github.io/

cs.CL: 查询和键总是相关的吗？Transformer波函数案例研究

原标题: Are queries and keys always relevant? A case study on Transformer wave functions

作者: Riccardo Rende, Luciano Loris Viteritti

机构: 国际高等研究学院 University of Trieste

摘要: 点积注意力机制最初是为自然语言处理（NLP）任务设计的，是现代Transformer的基石。它通过计算查询和键之间的相似性重叠，巧妙地捕捉句子中单词对之间的语义关系。在这项工作中，我们探讨了Transformer在参数化变分波函数的特定领域中的适用性，重点关注它们的注意力机制，以近似量子多体自旋哈密顿量的基态。具体地，我们在二维 $J_1$ - $J_2$ 海森堡模型上进行数值模拟，这是格点上量子多体系统领域中的常见基准。通过将标准注意力机制的性能与一个简化版本进行比较，后者排除了查询和键，仅依赖位置，我们在降低计算成本和参数使用的同时取得了竞争性结果。此外，通过分析标准注意力机制生成的注意力图，我们展示了在优化结束时注意力权重变得有效地与输入无关。我们通过分析计算结果支持数值结果，提供了为什么在研究大系统时应该原则上省略查询和键的注意力机制的物理见解。有趣的是，相同的论点可以在长输入句子的极限情况下扩展到NLP领域。

论文链接: https://arxiv.org/pdf/2405.18874

cs.CL: 大语言模型在高阶心智理论任务上达到成年人水平

原标题: LLMs achieve adult human performance on higher-order theory of mind tasks

作者: Winnie Street, John Oliver Siy, Geoff Keeling, Adrien Baranes, Benjamin Barnett, Michael McKibben, Tatenda Kanyere, Alison Lentz, Blaise Aguera y Arcas, Robin I. M. Dunbar

机构: 谷歌研究、谷歌DeepMind、约翰霍普金斯大学应用物理实验室、牛津大学实验心理学系

摘要: 本文考察了大语言模型（LLMs）在发展高阶心智理论（ToM）方面的程度；即人类推理多种心理和情感状态的递归能力（例如，我认为你相信她知道）。本文在之前的研究基础上引入了手写测试套件–多阶心智问答（Multi-Order Theory of Mind Q&A）–并使用它来比较五个LLMs的表现与新收集的成年人基准。我们发现，GPT-4和Flan-PaLM在整体ToM任务上达到了成年人水平和接近成年人水平的表现，而GPT-4在第6阶推理上超过了成年人的表现。我们的结果表明，模型大小和微调之间存在相互作用，用于实现ToM能力的实现，并且表现最佳的LLMs已经发展了一种普遍的ToM能力。鉴于高阶ToM在广泛的合作和竞争人类行为中所起的作用，这些发现对面向用户的LLM应用具有重要意义。

论文链接: https://arxiv.org/pdf/2405.18870

cs.CL: LMO-DP: 为(大)语言模型微调优化随机化机制

原标题: LMO-DP: Optimizing the Randomization Mechanism for Differentially Private Fine-Tuning (Large) Language Models

作者: Qin Yang, Meisam Mohammad, Han Wang, Ali Payani, Ashish Kundu, Kai Shu, Yan Yan, Yuan Hong

机构: 康涅狄格大学爱荷华州立大学堪萨斯大学思科研究所伊利诺伊理工学院美国康涅狄格大学

摘要: 差分隐私随机梯度下降（DP-SGD）及其变种已被提出，以确保对大规模预训练语言模型进行严格的隐私保护。然而，它们严重依赖高斯机制，这可能会过度扰动梯度并降低准确性，特别是在更强的隐私制度下（例如，隐私预算 $\epsilon < 3$ ）。为了解决这些限制，我们提出了一种新颖的基于语言模型的最优差分隐私（LMO-DP）机制，它首次实现了将准确地微调（大型）语言模型与次优的DP机制紧密组合，即使在强隐私制度下（例如， $0.1\leq \epsilon<3$ ）。此外，我们提出了一种新颖的离线最优噪声搜索方法，以高效地推导出显著减少噪声幅度的次优DP。例如，在SST-2数据集上对RoBERTa-large（具有3亿参数）进行微调可以在准确性达到92.20%（给定 $\epsilon=0.3$ ， $\delta=10^{-10}$ ）的情况下，通过大幅优于高斯机制（例如，对于小的 $\epsilon$ 和 $\delta$ ，约为 $\sim 50\%$ ）。我们还在GPT-2的文本生成任务中得出类似的发现。最后，据我们所知，LMO-DP也是第一个能够准确微调带有强差分隐私保证的Llama-2的解决方案。代码将很快发布，并可根据请求提供。

论文链接: https://arxiv.org/pdf/2405.18776

cs.CL: 通过语法归纳进行音乐短语分割

原标题: Musical Phrase Segmentation via Grammatical Induction

作者: Reed Perkins, Dan Ventura

机构: 杨百翰大学计算机科学系

摘要: 我们提出了一种解决音乐乐句分割挑战的方案，该方案使用了语法归纳算法，这是一类从输入序列中推断上下文无关文法的算法。我们分析了五种语法归纳算法在三个数据集上使用不同音乐视角组合时的性能。我们的实验表明，LONGESTFIRST算法在所有三个数据集上取得了最佳的F1分数，并且包括持续时间视角的输入编码能够获得最佳性能。

论文链接: https://arxiv.org/pdf/2405.18742

Github: https://github.com/reedperkins/grammatical-induction-phrase-segmentation

cs.CL: 通过大型模型进行视觉-语言导航的可校正地标发现

原标题: Correctable Landmark Discovery via Large Models for Vision-Language Navigation

作者: Bingqian Lin, Yunshuang Nie, Ziming Wei, Yi Zhu, Hang Xu, Shikui Ma, Jianzhuang Liu, Xiaodan Liang

机构: 清华大学哈工大京东 OpenAI

摘要: 视觉-语言导航（VLN）要求智能体遵循语言指令到达目标位置。成功导航的关键因素是将指令中隐含的地标与多样的视觉观察进行对齐。然而，先前的VLN智能体在未知场景中尤其是在准确的模态对齐方面表现不佳，因为它们学习于有限的导航数据并且缺乏足够的开放世界对齐知识。在这项工作中，我们提出了一种新的VLN范式，称为通过大模型进行可纠正的地标发现（CONSOLE）。在CONSOLE中，我们将VLN视为一个开放世界的顺序地标发现问题，通过引入基于两个大模型ChatGPT和CLIP的一种新颖的可纠正的地标发现方案。具体来说，我们使用ChatGPT提供丰富的开放世界地标共现常识，并基于这些常识先验进行基于CLIP的地标发现。为了减轻由于缺乏视觉约束而导致的先验中的噪声，我们引入了一个可学习的共现评分模块，根据实际观察纠正每个共现的重要性，以实现准确的地标发现。我们进一步为我们的框架与不同的VLN智能体进行优雅组合设计了一种观察增强策略，其中我们利用校正后的地标特征获取增强的观察特征用于行动决策。对多个流行的VLN基准（R2R、REVERIE、R4R、RxR）进行的大量实验结果显示CONSOLE相对于强基线的显著优势。特别是，我们的CONSOLE在未知场景中建立了R2R和R4R的新的最先进结果。代码可在此https网址找到。

论文链接: https://arxiv.org/pdf/2405.18721

Github: https://github.com/expectorlin/CONSOLE

cs.CL: 用内部一致性校准语言模型中的推理

原标题: Calibrating Reasoning in Language Models with Internal Consistency

作者: Zhihui Xie, Jizhou Guo, Tong Yu, Shuai Li

机构: 上海交通大学 Adobe Research

摘要: 大语言模型（LLMs）在各种推理任务中展现出令人印象深刻的能力，借助像是思维链（CoT）提示这样的技术引导口头推理。然而，LLMs经常生成带有明显错误和矛盾的文本，这引发了人们对它们能够稳健地处理和利用生成的推理的能力的怀疑。在这项工作中，我们通过内部表示的视角调查LLMs中的CoT推理，重点关注这些表示受生成的推理影响的方式。我们的初步分析显示，虽然生成的推理提高了答案的准确性，但模型中间层的内部表示与最终层的内部表示之间出现了不一致，这可能会损害它们推理过程的可靠性。为了解决这个问题，我们提出内部一致性作为模型信心的衡量标准，通过检查从中间层解码的潜在预测的一致性来评估。对不同模型和数据集进行的大量实证研究表明，内部一致性有效区分了正确和不正确的推理路径。在此基础上，我们提出了一种通过提升具有高内部一致性的推理路径权重的新方法，从而显著提升了推理性能。进一步的分析揭示了不同层中注意力和前馈模块的独特模式，为内部不一致性的出现提供了见解。总之，我们的结果表明了利用内部表示进行LLMs自我评估的潜力。

论文链接: https://arxiv.org/pdf/2405.18711

cs.CL: 通过对齐的经验估计实现高效的基于偏好的强化学习

原标题: Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation

作者: Fengshuo Bai, Rui Zhao, Hongming Zhang, Sijia Cui, Ying Wen, Yaodong Yang, Bo Xu, Lei Han

摘要: 基于偏好的强化学习（PbRL）在训练智能体时显示出了令人印象深刻的能力，而无需进行奖励工程。然而，PbRL 的一个显著局限性是其对大量人类反馈的依赖。这种依赖源于学习循环，其中需要准确的奖励学习，结合价值/策略学习，需要大量的样本。为了增强学习循环，我们提出了SEER，这是一种高效的PbRL方法，它整合了标签平滑和策略正则化技术。标签平滑通过平滑人类偏好标签来减少奖励模型的过拟合。此外，我们使用当前回放记忆中的支持良好的状态-动作对来引导保守估计 $\widehat{Q}$ ，以减轻过度估计偏差，并将其用于策略学习的正则化。我们在各种复杂任务上的实验结果，无论是在线还是离线设置，都表明我们的方法提高了反馈效率，远远超过了现有方法。消融研究进一步揭示，与先前的工作相比，SEER 实现了更准确的Q函数。

论文链接: https://arxiv.org/pdf/2405.18688

cs.CL: 基于LLM的分层概念分解，用于可解释的细粒度图像分类

原标题: LLM-based Hierarchical Concept Decomposition for Interpretable Fine-Grained Image Classification

作者: Renyi Qu, Mark Yatskar

机构: 宾夕法尼亚大学美国

摘要: 最近在视觉-语言任务的可解释模型方面取得了竞争性表现；然而，它们的可解释性通常受到对大型语言模型（LLMs）的非结构化文本输出的依赖而受损。这引入了随机性，损害了透明度和可靠性，这对解决人工智能系统中的安全问题至关重要。我们引入了\texttt{Hi-CoDe}（Hierarchical Concept Decomposition），这是一个旨在通过结构化概念分析提高模型可解释性的新框架。我们的方法包括两个主要组成部分：（1）我们使用GPT-4将输入图像分解为结构化的视觉概念层次结构，从而形成一个视觉概念树。（2）然后，我们利用一组简单的线性分类器，这些分类器基于从CLIP中导出的特定于概念的特征来执行分类。我们的方法不仅与最先进模型的性能相匹配，而且通过提供对决策过程的清晰见解并突出各种概念的重要性，从而推进了透明度。这允许对潜在故障模式进行详细分析，并提高了模型的紧凑性，因此在不损害准确性的情况下设定了可解释性的新基准。

论文链接: https://arxiv.org/pdf/2405.18672

cs.CL: 拉链：用于融合多模态的多塔解码器架构

原标题: Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities

作者: Vicky Zayats, Peter Chen, Melissa Merrari, Dirk Padfield

机构: 谷歌DeepMind

摘要: 整合多个生成基础模型，特别是那些在不同模态上训练的模型，使它们成为整体的总和以上，面临着重大挑战。两个关键障碍是对齐数据的可用性（包含相似含义但在不同模态中表达不同的概念），以及在跨领域生成任务中有效地利用单模表示，而不损害其原始的单模能力。

我们提出了Zipper，这是一种多塔解码器架构，通过使用交叉注意力灵活地组合来自独立预训练的单模解码器的多模生成模型，从而解决了这些问题。在我们的实验中，融合语音和文本模态，我们展示了所提出的架构在具有有限对齐文本-语音数据的情况下表现出很强的竞争力。我们还展示了我们模型的灵活性，通过冻结相应的单模塔（例如文本），有选择地保持单模（例如文本到文本生成）生成性能。在自动语音识别（ASR）等跨模态任务中，其中输出模态为文本，我们展示了冻结文本主干会导致性能下降可以忽略不计。在文本到语音生成（TTS）等跨模态任务中，其中输出模态为语音，我们展示了使用预训练的语音主干会比基线表现出更优异的性能。

论文链接: https://arxiv.org/pdf/2405.18669

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/神奇cpp/article/detail/749522