菜鸟追梦旅行

这个屌丝很懒，什么也没留下！

热门标签

AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.03.01-2024.03.05_taming throughput-latency tradeoff in llm inferenc

作者：菜鸟追梦旅行 | 2024-04-06 04:16:01

踩

taming throughput-latency tradeoff in llm inference with sarathi-serve

文章目录~

1.Language Guided Exploration for RL Agents in Text Environments
2.Word Importance Explains How Prompts Affect Language Model Outputs
3.Knowledge Graphs as Context Sources for LLM-Based Explanations of Learning Recommendations
4.Data Augmentation using LLMs: Data Perspectives, Learning Paradigms and Challenges
5.Benchmarking the Text-to-SQL Capability of Large Language Models: A Comprehensive Evaluation
6.A Comprehensive Survey on Process-Oriented Automatic Text Summarization with Exploration of LLM-Based Methods
7.Emerging Synergies Between Large Language Models and Machine Learning in Ecommerce Recommendations
8.Eliciting Better Multilingual Structured Reasoning from LLMs through Code
9.Balancing Enhancement, Harmlessness, and General Capabilities: Enhancing Conversational LLMs with Direct RLHF
10.Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents
11.Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve
12.Birbal: An efficient 7B instruct-model fine-tuned with curated datasets
13.adaptMLLM: Fine-Tuning Multilingual Language Models on Low-Resource Languages with Integrated LLM Playgrounds
14.Large Language Model-Based Evolutionary Optimizer: Reasoning with elitism
15.Multi-perspective Improvement of Knowledge Graph Completion with Large Language Models
16.Analyzing and Adapting Large Language Models for Few-Shot Multilingual NLU: Are We There Yet?
17.CatCode: A Comprehensive Evaluation Framework for LLMs On the Mixture of Code and Text
18.Improving LLM Code Generation with Grammar Augmentation
19.In-Context Sharpness as Alerts: An Inner Representation Perspective for Hallucination Mitigation
20.Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics
21.Infusing Knowledge into Large Language Models with Contextual Prompts
22.Right for Right Reasons: Large Language Models for Verifiable Commonsense Knowledge Graph Question Answering
23.NoMAD-Attention: Efficient LLM Inference on CPUs Through Multiply-add-free Attention
24.API Is Enough: Conformal Prediction for Large Language Models Without Logit-Access
25.Balancing Exploration and Exploitation in LLM using Soft RLLF for Enhanced Negation Understanding
26.STAR: Constraint LoRA with Dynamic Active Learning for Data-Efficient Fine-Tuning of Large Language Models
27.FaiMA: Feature-aware In-context Learning for Multi-domain Aspect-based Sentiment Analysis
28.Reading Subtext: Evaluating Large Language Models on Short Story Summarization with Writers
29.MALTO at SemEval-2024 Task 6: Leveraging Synthetic Data for LLM Hallucination Detection
30.Differentially Private Knowledge Distillation via Synthetic Text Generation
31.DiaHalu: A Dialogue-level Hallucination Evaluation Benchmark for Large Language Models
32.Large Language Models for Simultaneous Named Entity Extraction and Spelling Correction
33.FedRDMA: Communication-Efficient Cross-Silo Federated LLM via Chunked RDMA Transmission
34.Semi-Instruct: Bridging Natural-Instruct and Self-Instruct for Code Large Language Models

1.Language Guided Exploration for RL Agents in Text Environments

标题:文本环境中 RL 代理的语言引导探索

author:Hitesh Golchha, Sahil Yerawar, Dhruvesh Patel, Soham Dan, Keerthiram Murugesan

date Time:2024-03-05

paper pdf:http://arxiv.org/pdf/2403.03141v1

摘要：
现实世界中的顺序决策具有奖励稀疏和决策空间巨大的特点，这给像 $\textit{tabula rasa}$ 强化学习（RL）代理这样的经验学习系统带来了巨大的困难。大型语言模型（LLM）拥有丰富的世界知识，可以帮助 RL 代理快速学习并适应分布变化。在这项工作中，我们介绍了语言引导探索（LGE）框架，它使用预先训练好的语言模型（称为 GUIDE ）为 RL 代理（称为 EXPLORER）提供决策级引导。我们观察到，在具有挑战性的文本环境 ScienceWorld（Wang 等人，2022 年）上，LGE 的表现明显优于普通 RL 代理，也优于其他复杂方法，如行为克隆和文本决策转换器。

2.Word Importance Explains How Prompts Affect Language Model Outputs

标题:词语重要性解释了提示如何影响语言模型输出

author:Stefan Hackmann, Haniyeh Mahmoudian, Mark Steadman, Michael Schmidt

date Time:2024-03-05

paper pdf:http://arxiv.org/pdf/2403.03028v1

摘要：
大型语言模型（LLM）的出现给各行各业的众多应用带来了革命性的变化。然而，大型语言模型的 "黑箱 "性质往往阻碍了人们对其如何做出具体决策的理解，从而引发了人们对其透明度、可靠性和使用道德的担忧。本研究提出了一种改进 LLM 可解释性的方法，即通过改变提示中的单个词来揭示它们对模型输出的统计影响。这种方法的灵感来源于表格数据的排列重要性，它屏蔽了系统提示中的每个单词，并根据多个用户输入的可用文本分数汇总来评估其对输出的影响。与传统的注意力不同，单词重要性测量的是提示单词对任意定义的文本分数的影响，这样就能将单词的重要性分解为感兴趣的特定指标，包括偏差、阅读水平、冗长度等。在没有注意力权重的情况下，这一方法也能测量影响。为了测试这种方法的可靠性，我们探索了在多个不同的系统提示中添加不同后缀的效果，并用不同的大型语言模型比较了后续生成的效果。结果表明，单词重要性得分与多个评分函数的预期后缀输入密切相关。

3.Knowledge Graphs as Context Sources for LLM-Based Explanations of Learning Recommendations

标题:知识图谱作为基于 LLM 的学习建议解释的上下文来源

author:Hasan Abu-Rasheed, Christian Weber, Madjid Fathi

date Time:2024-03-05

paper pdf:http://arxiv.org/pdf/2403.03008v1

摘要：
在个性化教育时代，为学习建议提供可理解的解释对于增强学习者对推荐学习内容的理解和参与具有重要价值。最近，大型语言模型（LLMs）和一般的生成式人工智能为生成类似人类的解释、学习建议和学习建议的相关内容打开了新的大门。然而，在教育这样一个敏感的领域，它们的精确度还远远达不到可接受的程度。为了利用 LLM 的能力，同时确保学习者意图的高精确度，本文提出了一种方法，利用知识图谱（KG）作为 LLM 提示的事实上下文来源，降低模型幻觉的风险，防止错误或不精确信息，同时保持应用意图的学习上下文。我们利用知识图谱中的语义关系来提供有关学习建议的策划知识。有了领域专家的参与，我们将解释设计成文本模板，由 LLM 来填充和完成。作为一项研究的一部分，领域专家被纳入了提示工程阶段，以确保解释包含与学习者相关的信息。我们使用 Rouge-N 和 Rouge-L 测量方法对我们的方法进行了定量评估，并与专家和学习者进行了定性评估。我们的结果表明，与仅由 GPT 模型生成的解释相比，生成解释的召回率和精确度都有所提高，而且在最终学习解释中生成不精确信息的风险大大降低。

4.Data Augmentation using LLMs: Data Perspectives, Learning Paradigms and Challenges

标题:使用 LLM 进行数据扩充：数据视角、学习范式和挑战

author:Bosheng Ding, Chengwei Qin, Ruochen Zhao, Tianze Luo, Xinze Li, Guizhen Chen, Wenhan Xia, Junjie Hu, Anh Tuan Luu, Shafiq Joty

date Time:2024-03-05

paper pdf:http://arxiv.org/pdf/2403.02990v1

摘要：
在快速发展的机器学习（ML）领域，数据扩增（DA）已成为一种关键技术，可在无需收集额外数据的情况下，通过丰富训练示例来提高模型性能。本调查探讨了大型语言模型（LLMs）对数据扩增的变革性影响，特别是它们在自然语言处理（NLP）及其他方面带来的独特挑战和机遇。从数据角度和学习角度，我们研究了利用大型语言模型进行数据扩充的各种策略，包括对学习范式的新探索，即利用 LLM 生成的数据进行进一步训练。此外，本文还描述了这一领域面临的主要挑战，从可控数据增强到多模态数据增强。本调查报告强调了 LLM 在 DA 中引入的范式转变，旨在为该领域的研究人员和从业人员提供基础指南。

5.Benchmarking the Text-to-SQL Capability of Large Language Models: A Comprehensive Evaluation

标题:大型语言模型文本到 SQL 能力的基准测试：综合评估

author:Bin Zhang, Yuxiao Ye, Guoqing Du, Xiaoru Hu, Zhishuai Li, Sun Yang, Chi Harold Liu, Rui Zhao, Ziyue Li, Hangyu Mao

publish:26pages

date Time:2024-03-05

paper pdf:http://arxiv.org/pdf/2403.02951v1

摘要：
大型语言模型（LLM）已成为推进文本到 SQL 任务的有力工具，其性能明显优于传统方法。然而，作为一个新兴的研究领域，人们对最佳提示模板和设计框架仍未达成共识。为了解决上述问题，我们首先构建了一个新的数据集，旨在降低 LLM 的过拟合风险。然后，我们制定了五项评估任务，以全面评估不同 LLM 在整个文本到 SQL 过程中的性能。我们的研究强调了 LLM 之间的性能差异，并针对每项任务提出了最佳的上下文学习解决方案。这些发现为加强基于 LLM 的文本到 SQL 系统的开发提供了宝贵的见解。

6.A Comprehensive Survey on Process-Oriented Automatic Text Summarization with Exploration of LLM-Based Methods

标题:以过程为导向的自动文本摘要综合调查与基于 LLM 方法的探索

author:Hanlei Jin, Yang Zhang, Dan Meng, Jun Wang, Jinghua Tan

date Time:2024-03-05

paper pdf:http://arxiv.org/pdf/2403.02901v1

摘要：
自动文本摘要（ATS）利用自然语言处理（NLP）算法，旨在创建简洁准确的摘要，从而大大减少处理大量文本所需的人力。自动摘要技术在学术界和工业界都引起了极大的兴趣。过去有许多研究对 ATS 方法进行了调查，但由于这些研究通常从理论角度对以前的方法进行分类，因此在实际应用中普遍缺乏实用性。此外，大语言模型（LLM）的出现也改变了传统的自动语音识别系统方法。在本调查报告中，我们的目标是：1）从 "面向流程的模式 "角度全面概述自动测试技术，这最符合现实世界的实施情况；2）全面回顾基于 LLM 的最新自动测试技术作品；3）提供最新的自动测试技术调查报告，弥补两年来的文献空白。据我们所知，这是第一份专门研究基于 LLM 的 ATS 方法的调查报告。

7.Emerging Synergies Between Large Language Models and Machine Learning in Ecommerce Recommendations

标题:大型语言模型与机器学习在电子商务推荐中的新兴协同作用

author:Xiaonan Xu, Zheng Xu, Zhipeng Ling, Zhengyu Jin, ShuQian Du

date Time:2024-03-05

paper pdf:http://arxiv.org/pdf/2403.02760v1

摘要：
随着电子商务和网络应用的蓬勃发展，推荐系统已成为我们日常生活的重要组成部分，可根据用户的偏好提供个性化推荐。虽然深度神经网络（DNN）通过模拟用户与物品之间的交互并结合其文本信息，在改进推荐系统方面取得了重大进展，但这些基于 DNN 的方法仍存在一些局限性，例如难以有效理解用户的兴趣并捕捉文本信息。它们无法推广到不同的已见/未见推荐场景并对其预测进行推理。与此同时，以 ChatGPT 和 GPT-4 为代表的大型语言模型（LLM）的出现，由于其在语言理解和生成等基本任务方面的卓越能力，以及令人印象深刻的泛化和推理能力，给自然语言处理（NLP）和人工智能（AI）领域带来了革命性的变化。因此，最近的研究试图利用 LLM 的强大功能来改进推荐系统。鉴于这一研究方向在推荐系统领域的快速发展，我们迫切需要对现有的 LLM 驱动的推荐系统进行系统回顾，以供相关领域的研究人员和从业人员深入了解。更具体地说，我们首先介绍了使用 LLM 作为特征编码器学习用户和项目表征的代表性方法。然后，我们从预训练、微调和提示三个范例回顾了用于协同过滤增强型推荐系统的 LLMs 技术的最新进展。最后，我们就这一新兴领域的未来发展方向进行了全面讨论。

8.Eliciting Better Multilingual Structured Reasoning from LLMs through Code

标题:通过代码从 LLMs 中获得更好的多语言结构化推理

author:Bryan Li, Tamer Alkhouli, Daniele Bonadiman, Nikolaos Pappas, Saab Mansour

date Time:2024-03-05

paper pdf:http://arxiv.org/pdf/2403.02567v1

摘要：
大语言模型（LLM）的开发在推理方面取得了进展，但研究仅限于英语或简单的推理任务。因此，我们引入了一个多语言结构化推理和解释数据集，称为 xSTREET，涵盖六种语言的四项任务。基于在代码上训练过的 LLM 是更好的推理工具这一观点，我们提出了两种方法来弥补这一差距。首先，在训练时，我们使用机器翻译为代码数据集添加多语言注释，同时保持程序代码原样。其次，在推理时，我们采用一种提示结构，结合逐步推进的代码原语，在训练和推理之间架起一座桥梁，从而推导出新的事实并找到解决方案。我们的方法提高了 xSTREET 的多语言性能，尤其是在科学常识推理子任务上。此外，这些模型在非推理任务上也没有出现倒退，从而表明我们的技术保持了通用能力。

9.Balancing Enhancement, Harmlessness, and General Capabilities: Enhancing Conversational LLMs with Direct RLHF

标题:平衡增强性、无害性和通用能力：通过直接 RLHF 增强会话式 LLMs

author:Chen Zheng, Ke Sun, Hang Wu, Chenguang Xi, Xun Zhou

date Time:2024-03-04

paper pdf:http://arxiv.org/pdf/2403.02513v1

摘要：
在会话大语言模型（LLM）的最新进展中，出现了一个令人担忧的趋势，即许多新的基础 LLM 在经过监督微调（SFT）后，其基础能力会出现知识减少的情况。这一过程通常会导致遗忘或基础模型能力下降等问题。此外，微调后的模型很难与用户偏好保持一致，在特定提示下会无意中增加有毒输出的生成。为了克服这些挑战，我们采用了一种创新方法，即完全绕过 SFT，直接实施来自人类反馈的无害强化学习（RLHF）。我们的方法不仅保留了基础模型的一般能力，还大大增强了其对话能力，同时显著减少了有毒输出的产生。我们的方法对客户服务等需要细微理解和生成响应的领域具有重要意义。我们将这一方法应用于最流行的基础模型 Mistral，从而创建了 Mistral-Plus。我们在 11 个一般任务中进行的验证表明，Mistral-Plus 优于类似规模的开源基础模型及其相应的指导版本。重要的是，Mistral-Plus 的对话能力有了显著提高，这表明它在安全性和用户偏好一致性方面都比传统的 SFT 模型有了很大进步。

10.Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents

标题:试错：基于探索的 LLM 代理轨迹优化

author:Yifan Song, Da Yin, Xiang Yue, Jie Huang, Sujian Li, Bill Yuchen Lin

date Time:2024-03-04

paper pdf:http://arxiv.org/pdf/2403.02502v1

摘要：
大型语言模型（LLM）已成为各种自主代理系统不可或缺的组成部分。在本研究中，我们提出了一种基于探索的轨迹优化方法，简称为 ETO。这种学习方法旨在提高开放式 LLM 代理的性能。与以往只在成功的专家轨迹上进行训练的研究不同，我们的方法允许代理从探索失败中学习。这就通过迭代优化框架提高了性能。在探索阶段，代理在完成给定任务的同时与环境互动，收集失败轨迹以创建对比轨迹对。在随后的训练阶段，代理利用这些轨迹偏好对，使用对比学习方法（如 DPO）更新其策略。这种探索和训练的迭代循环促进了代理的持续改进。我们在三个复杂任务上的实验表明，ETO 的性能始终远远超过基线性能。此外，在缺乏专家轨迹的情况下，对任务解决效率和潜力的研究也强调了我们方法的有效性。

11.Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve

标题:用 Sarathi-Serve 解决 LLM 推断中的吞吐量-延迟权衡问题

author:Amey Agrawal, Nitin Kedia, Ashish Panwar, Jayashree Mohan, Nipun Kwatra, Bhargav S. Gulavani, Alexey Tumanov, Ramachandran Ramjee

date Time:2024-03-04

paper pdf:http://arxiv.org/pdf/2403.02310v1

摘要：
每个 LLM 服务请求都要经过两个阶段。第一个阶段是预填充，处理整个输入提示，生成一个输出标记；第二个阶段是解码，逐个生成其余的输出标记。预填充迭代的延迟较高，但由于输入提示的并行处理，GPU 的计算量会达到饱和。相比之下，解码迭代的延迟低，但计算利用率也低，因为解码迭代每次请求只处理一个令牌。这使得批处理对解码非常有效，从而提高了整体吞吐量。然而，对多个请求进行批处理会导致预填充和解码迭代的交错，这使得同时实现高吞吐量和低延迟具有挑战性。我们介绍了一种高效的 LLM 推理调度程序 Sarathi-Serve，其灵感来自于我们最初在 Sarathi 中提出的优化吞吐量的技术。Sarathi-Serve 利用 Sarathi 中的分块预填充来创建无延迟调度，可以在不暂停正在进行的解码的情况下批量添加新请求。无停滞调度为提高大容量批处理的吞吐量提供了机会，同时将批处理对延迟的影响降至最低。我们的评估结果表明，与 Orca 和 vLLM 相比，Sarathi-Serve 在单个 A100 GPU 上将 Mistral-7B 的预期延迟 SLO 内的服务吞吐量提高了 2.6 倍，在 8 个 A100 GPU 上将 Falcon-180B 的吞吐量提高了 6.9 倍。

12.Birbal: An efficient 7B instruct-model fine-tuned with curated datasets

标题:Birbal：利用数据集微调的高效 7B 指令模型

author:Ashvini Kumar Jindal, Pawan Kumar Rajpoot, Ankur Parikh

date Time:2024-03-04

paper pdf:http://arxiv.org/pdf/2403.02247v1

摘要：
由于硬件要求，LLMOps 需要大量成本，这阻碍了它们的普及。此外，由于模型训练方法和数据缺乏透明度，导致大多数模型无法再现。为了应对这些挑战，我们在 NeurIPS 研讨会上推出了 LLM 效率挑战赛，旨在通过在单个 GPU（RTX 4090 或 A100，40GB）上进行微调，在 24 小时的时间框架内对各种任务的基础模型进行调整。在本系统介绍论文中，我们将介绍基于 Mistral-7B 的获胜模型 Birbal，该模型在单个 RTX 4090 上进行了 16 小时的微调。Birbal 的成功之处在于策划了涵盖各种任务的高质量指令，与第二名基于 Qwen-14B 的提交相比，性能提高了 35%。

13.adaptMLLM: Fine-Tuning Multilingual Language Models on Low-Resource Languages with Integrated LLM Playgrounds

标题:adaptMLLM：利用集成的 LLM 游乐场在低资源语言上微调多语言语言模型

author:Séamus Lankford, Haithem Afli, Andy Way

date Time:2024-03-04

paper pdf:http://arxiv.org/pdf/2403.02370v1

摘要：
多语言语言模型（MLLMs）和大型语言模型的出现催生了自然语言处理许多领域的创新。尽管这项技术具有令人兴奋的潜力，但其对开发低资源语言的高质量机器翻译（MT）输出的影响仍相对不足。此外，专门用于微调 MLLM 和管理低资源语言的完整 MT 工作流程的开源应用程序仍然不可用。我们的目标是通过开发 adaptMLLM 来解决这些不平衡问题，adaptMLLM 可简化 MT 中微调 MLLM 所涉及的所有流程。这款开源应用程序专为从事 MT 的开发人员、翻译人员和用户量身定制。通过直观的界面可以轻松定制超参数，该应用程序还提供了一系列模型评估指标，并能直接在应用程序中将模型部署为翻译服务。作为一种多语言工具，我们使用 adaptMLLM 对两种低资源语言对的模型进行了微调：英语到爱尔兰语（EN $\leftrightarrow$ GA）和英语到马拉地语（EN $\leftrightarrow$ MR）。与 LoResMT2021 共享任务的基线相比，adaptMLLM 系统有了显著改进。在 EN $\rightarrow$ GA 方向上，观察到 5.2 BLEU 点的改进，在 GA $\rightarrow$ EN 方向上，记录到 40.5 BLEU 点的改进。在 MR $\rightarrow$ EN 方向上，EN $\leftrightarrow$ MR 对的翻译性能也有显著提高，增加了 21.3 BLEU 点。最后，使用多维质量度量和标量质量度量错误分类法，对EN $\rightarrow$ GA翻译对的MLLM输出进行了精细的人工评估。该应用程序和模型可免费获取。

14.Large Language Model-Based Evolutionary Optimizer: Reasoning with elitism

标题:基于大语言模型的进化优化器：精英推理

author:Shuvayan Brahmachary, Subodh M. Joshi, Aniruddha Panda, Kaushik Koneripalli, Arun Kumar Sagotra, Harshil Patel, Ankush Sharma, Ameya D. Jagtap, Kaushic Kalyanaraman

date Time:2024-03-04

paper pdf:http://arxiv.org/pdf/2403.02054v1

摘要：
大型语言模型（LLMs）已展现出非凡的推理能力，激发了人们对其作为黑盒优化器应用的兴趣。本文认为，LLM 具备在包括多目标和高维问题在内的各种情况下进行零次优化的能力。我们介绍了一种使用 LLMs 进行数值优化的基于种群的新方法，称为基于语言模型的进化优化器（LEO）。我们的假设通过数值示例得到了支持，这些示例涉及超音速喷嘴形状优化、热传导和风电场布局优化等基准问题和工业工程问题。我们将我们的方法与几种基于梯度和无梯度的优化方法进行了比较。虽然 LLM 得出的结果与最先进的方法不相上下，但其想象力丰富、容易产生幻觉的特性要求我们谨慎处理。我们提供了从 LLMs 中获得可靠答案的实用指南，并讨论了方法的局限性和潜在的研究方向。

15.Multi-perspective Improvement of Knowledge Graph Completion with Large Language Models

标题:利用大型语言模型多角度改进知识图谱补全

author:Derong Xu, Ziheng Zhang, Zhenxi Lin, Xian Wu, Zhihong Zhu, Tong Xu, Xiangyu Zhao, Yefeng Zheng, Enhong Chen

publish:Accepted by LREC-COLING 2024

date Time:2024-03-04

paper pdf:http://arxiv.org/pdf/2403.01972v1

摘要：
知识图谱补全（KGC）是一种通过预测缺失链接来解决知识图谱（KG）不完整性问题的广泛应用方法。基于描述的 KGC 利用预先训练好的语言模型，通过实体和关系的名称或描述来学习实体和关系表征，这种方法显示出良好的效果。但是，基于描述的 KGC 的性能仍然受到文本质量和结构不完整的限制，因为它缺乏足够的实体描述，只能依赖关系名称，从而导致次优结果。针对这一问题，我们提出了 MPIKGC 这一通用框架，以弥补上下文知识的不足，并通过从不同角度查询大型语言模型（LLM）来改进 KGC，其中包括利用 LLM 的推理、解释和总结能力来分别扩展实体描述、理解关系和提取结构。我们基于四个基于描述的 KGC 模型和四个数据集，针对链接预测和三元组分类任务，对我们的框架的有效性和改进进行了广泛的评估。

16.Analyzing and Adapting Large Language Models for Few-Shot Multilingual NLU: Are We There Yet?

标题:分析和调整大型语言模型，实现少镜头多语言 NLU：我们成功了吗？

author:Evgeniia Razumovskaia, Ivan Vulić, Anna Korhonen

date Time:2024-03-04

paper pdf:http://arxiv.org/pdf/2403.01929v1

摘要：
有监督的微调（SFT）、有监督的指令调整（SIT）和上下文学习（ICL）是少数几次学习的三种可供选择的、事实上的标准方法。最近，随着 LLM 的出现，ICL 因其简单性和样本效率而大受欢迎。之前的研究只对这些方法如何用于多语种少点学习进行了有限的调查，迄今为止的重点主要集中在它们的性能上。在这项工作中，我们对这三种方法进行了广泛而系统的比较，在 6 种高低资源语言、3 种不同的 NLU 任务以及大量语言和领域设置中对它们进行了测试。重要的是，性能只是比较的一个方面，我们还从计算、推理和财务成本的角度分析了这些方法。我们的观察结果表明，有监督的指令调整在性能和资源需求之间实现了最佳平衡。作为另一项贡献，我们分析了预训练 LLM 的目标语言适应性的影响，发现标准适应性方法可以（表面上）提高目标语言生成能力，但通过 ICL 激发的语言理解能力并没有提高，而且仍然有限，尤其是对低资源语言而言，得分较低。

17.CatCode: A Comprehensive Evaluation Framework for LLMs On the Mixture of Code and Text

标题:CatCode：代码与文本混合的 LLM 综合评估框架

author:Zhenru Lin, Yiqun Yao, Yang Yuan

publish:10 pages, 5 figures

date Time:2024-03-04

paper pdf:http://arxiv.org/pdf/2403.01784v1

摘要：
大型语言模型（LLM），如 ChatGPT，在理解和生成代码与文本的混合物方面越来越熟练。基于这种 $\textit{mixture}$ 的评估可以更全面地了解模型解决编码问题的能力。然而，在这种情况下，当前的评估方法要么任务覆盖范围有限，要么缺乏标准化。为解决这一问题，我们建议使用类别理论作为评估框架。具体来说，代码类别内的变形可以表示代码调试和转换，两个类别之间的函数表示代码翻译，代码类别和自然语言类别之间的函数表示代码生成、解释和再现。我们提出了一个名为 $\textbf{CatCode}$ （ $\textbf{Cat}$ egory $\textbf{Code}$ ）的自动评估框架，可以全面评估包括 ChatGPT、Text-Davinci 和 CodeGeeX 在内的 LLM 的编码能力。

18.Improving LLM Code Generation with Grammar Augmentation

标题:用语法增强改进 LLM 代码生成

author:Shubham Ugare, Tarun Suresh, Hangoo Kang, Sasa Misailovic, Gagandeep Singh

date Time:2024-03-03

paper pdf:http://arxiv.org/pdf/2403.01632v1

摘要：
我们提出的 SynCode 是一个新颖的框架，用于利用大型语言模型 (LLM) 对代码进行高效、通用的语法解码。SynCode 利用编程语言的语法，基于语言语法终端，使用离线构建的高效查找表（称为 DFA 掩码存储）。我们展示了 SynCode 在编程语言无上下文语法（CFG）下的健全性和完整性，并介绍了其保留语法上有效的标记同时拒绝无效标记的能力。该框架可与任何由 CFG 定义的语言无缝集成，Python 和 Go 的 CFG 实验证明了这一点。实验结果表明，当 SynCode 与最先进的 LLMs 结合使用时，语法错误大幅减少了 96.07%，显示了其对提高代码生成中的语法精确度的巨大影响。我们的代码见 https://github.com/uiuc-focal-lab/syncode。

19.In-Context Sharpness as Alerts: An Inner Representation Perspective for Hallucination Mitigation

标题:作为警报的上下文清晰度：减少幻觉的内在表征视角

author:Shiqi Chen, Miao Xiong, Junteng Liu, Zhengxuan Wu, Teng Xiao, Siyang Gao, Junxian He

publish:code repo is available at:
https://github.com/hkust-nlp/Activation_decoding.git

date Time:2024-03-03

paper pdf:http://arxiv.org/pdf/2403.01548v2

摘要：
大型语言模型（LLMs）经常产生幻觉和事实错误，但我们对它们为什么会犯这些错误的理解仍然有限。在本研究中，我们从内在表征的角度深入研究了 LLM 产生幻觉的内在机制，并发现了一种与幻觉相关的显著模式：与错误的幻觉相比，正确的幻觉往往在上下文中标记的隐藏状态中具有更敏锐的上下文激活。利用这一洞察力，我们提出了一种基于熵的度量方法来量化上下文隐藏状态之间的 “锐度”，并将其纳入解码过程，从而制定出一种受限解码方法。在各种求知和幻觉基准上的实验证明了我们的方法的一贯有效性，例如，在 TruthfulQA 上实现了高达 8.6 分的改进。我们相信，这项研究能增进我们对幻觉的理解，并为减轻幻觉提供实用的解决方案。

20.Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics

标题:奇妙的语义和在哪里找到它们：研究生成式 LLM 的哪些层反映了词汇语义

author:Zhu Liu, Cunliang Kong, Ying Liu, Maosong Sun

publish:This work was completed on February 15th, 2024, and submitted to ACL
2024

date Time:2024-03-03

paper pdf:http://arxiv.org/pdf/2403.01509v1

摘要：
大型语言模型在一般语言理解任务中取得了巨大成功。然而，作为以预测下一个标记为目标的生成方法系列，这些模型的语义随深度的演变并未得到充分探索，这与它们的前身（如 BERT 类架构）不同。在本文中，我们特别研究了一种流行的 LLM（即 Llama2）的自下而上的词汇语义演变，方法是使用上下文化的单词识别任务在每一层的末端探测其隐藏状态。我们的实验表明，低层的表征编码词汇语义，而语义归纳能力较弱的高层则负责预测。这与掩码语言建模等以辨别为目标的模型形成了鲜明对比，在掩码语言建模中，高层获得了更好的词汇语义。在提示策略中，通过最后一个无意义符号（如标点符号）的隐藏状态，单调地提高了性能，这进一步支持了上述结论。

21.Infusing Knowledge into Large Language Models with Contextual Prompts

标题:利用语境提示将知识注入大型语言模型

author:Kinshuk Vasisht, Balaji Ganesan, Vikas Kumar, Vasudha Bhatnagar

publish:5 pages, 1 figure, In Proceedings of ICON 2023

date Time:2024-03-03

paper pdf:http://arxiv.org/pdf/2403.01481v1

摘要：
针对特定领域的 NLP 任务，知识注入是一种很有前途的增强大型语言模型的方法，而不是从头开始对大型数据进行预训练。这些增强型 LLM 通常依赖于额外的预训练或来自现有知识图谱的知识提示，这在许多应用中都是不切实际的。相比之下，直接从相关文档中导入知识更具有通用性，可减轻对结构化知识图谱的需求，同时对通常在任何知识图谱中都找不到的实体也很有用。基于这一动机，我们提出了一种简单而通用的知识导入方法，即通过输入文本中的上下文生成提示。我们的实验显示了我们方法的有效性，我们通过探测微调的 LLM 来评估这种有效性。

22.Right for Right Reasons: Large Language Models for Verifiable Commonsense Knowledge Graph Question Answering

标题:正确的理由：用于可验证常识性知识图谱问题解答的大型语言模型

author:Armin Toroghi, Willis Guo, Mohammad Mahdi Abdollah Pour, Scott Sanner

publish:8 pages

date Time:2024-03-03

paper pdf:http://arxiv.org/pdf/2403.01390v1

摘要：
知识图谱问题解答（KGQA）方法旨在利用知识图谱（KG）中存储的关系信息来回答自然语言问题。随着大型语言模型（LLM）及其卓越推理能力的不断进步，将其用于 KGQA 的趋势日益明显。然而，现有的方法只专注于回答事实性问题，例如 “西尔维奥-贝卢斯科尼的第一任妻子出生在哪个城市？”，却忽略了现实世界中用户可能经常提出的涉及常识推理的问题，例如 "今年夏天，我是否需要分别获得签证才能参观威伦多夫的维纳斯和参加奥运会？在这项工作中，我们首先观察到，现有的基于 LLM 的 KGQA 方法在处理此类问题时，尤其是针对长尾实体（如非主流实体和最新实体）的查询时，会出现幻觉，从而阻碍了它们在现实世界中的应用，特别是因为它们的推理过程不容易验证。为此，我们提出了 “正确的理由”（R3）–一种常识性 KGQA 方法，通过公理化地浮现 LLM 的内在常识性知识，并将每个事实推理步骤建立在 KG 三元组的基础上，从而实现可验证的推理过程。通过对三个不同任务–问题解答、索赔验证和偏好匹配–的实验评估，我们的研究结果表明 R3 是一种优越的方法，其性能优于现有方法，并显著减少了幻觉和推理错误。

23.NoMAD-Attention: Efficient LLM Inference on CPUs Through Multiply-add-free Attention

标题:NoMAD-Attention：通过无乘加注意力在 CPU 上实现高效 LLM 推理

author:Tianyi Zhang, Jonah Wonkyu Yi, Bowen Yao, Zhaozhuo Xu, Anshumali Shrivastava

date Time:2024-03-02

paper pdf:http://arxiv.org/pdf/2403.01273v1

摘要：
在中央处理器（CPU）上进行大型语言模型推理具有挑战性，因为在注意力计算中需要进行大量昂贵的乘加（MAD）矩阵操作。在本文中，我们认为现代中央处理器中存在一种罕见的瑰宝–单指令多数据（SIMD）寄存器，它可以实现超低延迟的批量查找。我们利用中央处理器的这一独特能力提出了 NoMAD-Attention，一种用寄存器内查找取代 MAD 操作的高效注意力算法。通过硬件感知算法设计，NoMAD-Attention 利用重复快速访问 SIMD 寄存器来计算注意力分数，尽管这些寄存器的大小非常有限。此外，NoMAD-Attention 可与预先训练的基于注意力的 LLM 配合使用，无需对模型进行微调。经验评估表明，NoMAD-Attention 能很好地保持原始 LLM 的质量，并在 16k 上下文长度下将基于 LLaMA-7B 的 4 位量化模型的速度提高了 2 $\times$ 。我们的结果可在 https://github.com/tonyzhang617/nomad-dist 上重现。

24.API Is Enough: Conformal Prediction for Large Language Models Without Logit-Access

标题:API 就够了：无需 Logit 访问的大型语言模型的一致性预测

author:Jiayuan Su, Jing Luo, Hongwei Wang, Lu Cheng

date Time:2024-03-02

paper pdf:http://arxiv.org/pdf/2403.01216v1

摘要：
本研究旨在解决大型语言模型（LLM）中量化不确定性这一普遍存在的难题，而无需使用对数访问（logit-access）。共形预测（CP）以其与模型无关和无分布的特点而闻名，是各种 LLM 和数据分布的理想方法。然而，现有的 LLM CP 方法通常假定可以访问对数，而某些仅使用 API 的 LLM 无法访问对数。此外，已知对数会被误校准，从而可能导致 CP 性能下降。为了应对这些挑战，我们引入了一种新颖的 CP 方法：(1) 专为没有对数访问权限的纯 API LLM 量身定制；(2) 最大限度地减小预测集的大小；(3) 确保用户定义覆盖范围的统计保证。这种方法的核心思想是利用粗粒度（即样本频率）和细粒度不确定性概念（如语义相似性）来制定不符合性测量。在封闭式和开放式问题解答任务上的实验结果表明，我们的方法在很大程度上优于基于 logit 的 CP 基线。

25.Balancing Exploration and Exploitation in LLM using Soft RLLF for Enhanced Negation Understanding

标题:利用软 RLLF 平衡 LLM 中的探索与利用，增强否定理解力

author:Ha-Thanh Nguyen, Ken Satoh

publish:JURISIN 2024

date Time:2024-03-02

paper pdf:http://arxiv.org/pdf/2403.01185v1

摘要：
NLP 中的微调方法通常侧重于利用而非探索，这可能会导致次优模型的产生。鉴于自然语言的搜索空间巨大，这种有限的探索可能会限制它们在复杂、高风险领域的表现，而在这些领域，准确的否定理解和逻辑推理能力至关重要。为了解决这个问题，我们利用逻辑反馈强化学习（RLLF）在 LLM 的探索和利用之间建立有效的平衡。我们的方法采用了适当的基准数据集进行训练和评估，突出了探索在增强否定理解能力方面的重要性。我们将 RLLF 增强型 LLM 的性能与未经 RLLF 训练的基线模型进行了比较，从而证明了这种平衡方法的价值。此外，我们通过采用迁移学习并评估其对否定理解的影响，展示了我们的方法在法律人工智能应用中的潜力。我们的实验结果表明，利用 RLLF 平衡探索和利用，能有效提高 LLM 的否定能力。这对在高风险领域开发更准确、可靠和逻辑一致的语言模型具有重要意义。

26.STAR: Constraint LoRA with Dynamic Active Learning for Data-Efficient Fine-Tuning of Large Language Models

标题:STAR：采用动态主动学习的限制性 LoRA，用于对大型语言模型进行高效的数据微调

author:Linhai Zhang, Jialong Wu, Deyu Zhou, Guoqiang Xu

publish:Our code and results will be available at
https://github.com/callanwu/STAR

date Time:2024-03-02

paper pdf:http://arxiv.org/pdf/2403.01165v1

摘要：
虽然大语言模型（LLM）通过提示方法展示了少量学习的强大能力，但对于复杂的推理任务来说，监督训练仍然是必要的。由于 LLMs 需要大量参数和内存，因此有人提出了参数效率微调（PEFT）方法和内存效率微调方法。然而，数据高效微调的目标–大量注释数据消耗的问题仍未得到探讨。一种显而易见的方法是将 PEFT 方法与主动学习相结合。然而，实验结果表明，这种结合并非轻而易举，而且会产生较差的结果。通过探究实验，这种观察结果可能有两个主要原因：不确定性差距和模型校准不佳。因此，在本文中，我们提出了一种有效整合基于不确定性的主动学习和 LoRA 的新方法。具体来说，针对不确定性差距，我们引入了一种动态不确定性测量方法，在主动学习的迭代过程中将基础模型的不确定性和完整模型的不确定性结合起来。对于较差的模型校准，我们在 LoRA 训练过程中加入了正则化方法，以防止模型过于自信，并采用 Monte-Carlo dropout 机制来增强不确定性估计。实验结果表明，在三个复杂推理任务中，所提出的方法优于现有的基线模型。

27.FaiMA: Feature-aware In-context Learning for Multi-domain Aspect-based Sentiment Analysis

标题:FaiMA：用于多领域基于特征的情感分析的特征感知上下文学习

author:Songhua Yang, Xinke Jiang, Hanjie Zhao, Wenxuan Zeng, Hongde Liu, Yuxiang Jia

date Time:2024-03-02

paper pdf:http://arxiv.org/pdf/2403.01063v1

摘要：
基于多领域方面的情感分析（ABSA）旨在捕捉跨不同领域的细粒度情感。现有的研究主要集中在单领域应用上，受到方法限制和数据稀缺的制约，而现实情况是，情感自然会跨越多个领域。虽然大型语言模型（LLMs）为 ABSA 提供了一种前景广阔的解决方案，但由于修改其内部架构并不容易，因此很难与基于图的模型和语言学等成熟技术有效整合。为了缓解这一问题，我们提出了一个新颖的框架–多领域 ABSA 的特征感知上下文学习（FaiMA）。FaiMA 的核心观点是利用上下文学习（ICL）作为一种特征感知机制，促进多域 ABSA 任务中的自适应学习。具体来说，我们采用多头图注意网络作为文本编码器，通过启发式规则对语言、领域和情感特征进行优化。通过对比学习，我们将重点放在这些不同的特征上，从而优化句子表征。此外，我们还构建了一种高效的索引机制，使 FaiMA 能够在任何给定输入的多个维度上稳定地检索高度相关的示例。为了评估 FaiMA 的功效，我们建立了首个多领域 ABSA 基准数据集。广泛的实验结果表明，与基线相比，FaiMA 在多个领域都取得了显著的性能提升，F1 平均提高了 2.07%。源代码和数据集可通过 https://github.com/SupritYoung/FaiMA 匿名获取。

28.Reading Subtext: Evaluating Large Language Models on Short Story Summarization with Writers

标题:阅读潜台词：与作家一起评估短篇小说摘要的大语言模型

author:Melanie Subbiah, Sean Zhang, Lydia B. Chilton, Kathleen McKeown

date Time:2024-03-02

paper pdf:http://arxiv.org/pdf/2403.01061v1

摘要：
短篇小说可能篇幅很长，而且包含细微的潜台词或错乱的时间线，我们评估了最近的大型语言模型（LLMs）在总结短篇小说这一具有挑战性的任务上的表现。重要的是，我们直接与作者合作，以确保故事未在网上分享（因此模型无法看到），并通过作者自己的判断来获得对摘要质量的知情评估。通过基于叙事理论的定量和定性分析，我们比较了 GPT-4、Claude-2.1 和 LLama-2-70B。我们发现，这三个模型都在超过 50% 的摘要中犯了忠实性错误，并且在解释难以理解的潜台词时很吃力。然而，在最佳状态下，这些模型可以对故事进行深思熟虑的主题分析。此外，我们还证明了 LLM 对摘要质量的判断与作者的反馈并不一致。

29.MALTO at SemEval-2024 Task 6: Leveraging Synthetic Data for LLM Hallucination Detection

标题:MALTO在SemEval-2024上的任务6：利用合成数据进行LLM幻觉检测

author:Federico Borra, Claudio Savelli, Giacomo Rosso, Alkis Koudounas, Flavio Giobergia

publish:Under revision at SemEval 2024

date Time:2024-03-01

paper pdf:http://arxiv.org/pdf/2403.00964v1

摘要：
在自然语言生成（NLG）中，当代大型语言模型（LLM）面临着一些挑战，例如生成流畅但不准确的输出，以及依赖以流畅性为中心的指标。这往往会导致神经网络出现 “幻觉”。SHROOM 挑战的重点是在生成的文本中自动识别这些幻觉。为了解决这些问题，我们引入了两个关键组件，一个是包含 LLM 辅助伪标签和句子重写的数据增强管道，另一个是在自然语言推理（NLI）任务中预先训练并在不同数据集上微调的三个模型的投票集合。

30.Differentially Private Knowledge Distillation via Synthetic Text Generation

标题:通过合成文本生成实现差异化私有知识提炼

author:James Flemings, Murali Annavaram

date Time:2024-03-01

paper pdf:http://arxiv.org/pdf/2403.00932v1

摘要：
大型语言模型（LLM）在许多不同的下游任务中都取得了最先进的性能。然而，数据隐私问题日益紧迫，这就要求 LLM 在训练时对隐私数据进行差分隐私（DP）处理。同时，还需要压缩 LLM，以便在资源有限的设备或对延迟敏感的应用上进行实际部署。差异隐私和模型压缩通常必须权衡效用损失，才能实现各自的目标。此外，同时实现这两个目标可能会造成更大的效用损失。为此，我们提出了一种新颖的差异化隐私知识提炼算法，利用差异化隐私 LLM 生成的合成数据。教师模型的知识通过两种方式转移到学生身上：一种方式是合成数据本身，即硬标签；另一种方式是教师模型在合成数据上评估的输出分布，即软标签。此外，如果教师和学生共享类似的架构结构，我们还可以通过利用隐藏表征进一步提炼知识。我们的研究结果表明，与现有的基线相比，我们的框架在具有较强隐私参数（{\epsilon} = 2）的情况下大大提高了实用性，这验证了我们可以在保护训练数据隐私的同时成功地压缩自回归 LLM。

31.DiaHalu: A Dialogue-level Hallucination Evaluation Benchmark for Large Language Models

标题:DiaHalu：大型语言模型的对话级幻觉评估基准

author:Kedi Chen, Qin Chen, Jie Zhou, Yishen He, Liang He

date Time:2024-03-01

paper pdf:http://arxiv.org/pdf/2403.00896v1

摘要：
近年来，大型语言模型（LLMs）取得了巨大成功，但幻觉问题仍然是一个挑战，人们提出了许多基准来检测幻觉。然而，其中一些基准并非由 LLM 自然生成，而是有意诱导的。而且，许多基准仅仅关注事实性幻觉，而忽略了忠实性幻觉。此外，虽然对话模式在 LLM 时代得到了更广泛的应用，但目前的基准仅集中于句子级和段落级幻觉。在本研究中，我们提出了第一个对话级幻觉评估基准–DiaHalu。首先，我们将收集到的话题整合到系统提示中，并促进两个 ChatGPT3.5 之间的对话。随后，我们手动修改不符合人类语言习惯的内容，然后让 LLMs 重新生成，模拟真实的人机交互场景。最后，专业学者对数据集中的所有样本进行注释。DiaHalu 涵盖了四个常见的多轮对话领域和五个幻觉子类型，由事实性幻觉和忠实性幻觉扩展而来。在该数据集上使用一些著名的 LLM 和检测方法进行的实验表明，DiaHalu 是一个具有挑战性的基准，对进一步的研究具有重要价值。

32.Large Language Models for Simultaneous Named Entity Extraction and Spelling Correction

标题:同时进行命名实体提取和拼写校正的大型语言模型

author:Edward Whittaker, Ikuo Kitagishi

publish:9 pages, 1 figure

date Time:2024-03-01

paper pdf:http://arxiv.org/pdf/2403.00528v1

摘要：
语言模型（LM），如 BERT，在识别文本中的命名实体（NE）方面表现出色。BERT LM 通常用作分类器，将输入文本中的单个词组或词组跨度分类为属于一组可能的 NE 类别之一。在本文中，我们假设只使用解码器的大语言模型（LLM）也可以生成地用于提取近义词，并有可能恢复近义词的正确表面形式，其中输入文本中存在的任何拼写错误都会被自动纠正。我们以两个 BERT LM 和八个开源 LLM 为基线，对它们进行了微调，微调的任务是从对日本商店收据图像进行光学字符识别（OCR）后得到的文本中提取出 NE；在这项工作中，我们并不试图查找或评估 NE 在文本中的位置。我们的研究表明，经过微调的最佳 LLM 与经过微调的最佳 BERT LM 性能相当，甚至略胜一筹，尽管两者之间的差异并不显著。不过，最佳 LLM 在某些情况下还能纠正 OCR 错误，这与最初的假设不谋而合。

33.FedRDMA: Communication-Efficient Cross-Silo Federated LLM via Chunked RDMA Transmission

标题:FedRDMA：通过分块 RDMA 传输实现通信效率高的跨单机联合 LLM

author:Zeling Zhang, Dongqi Cai, Yiran Zhang, Mengwei Xu, Shangguang Wang, Ao Zhou

publish:under review

date Time:2024-03-01

paper pdf:http://arxiv.org/pdf/2403.00881v1

摘要：
通信开销是联合学习（FL）中的一个重要瓶颈，随着人工智能模型规模的不断扩大，这一问题也变得越来越严重。在本文中，我们提出了 FedRDMA，这是一种通信效率高的跨ilo FL 系统，它将 RDMA 集成到了 FL 通信协议中。为了克服 RDMA 在广域网（WAN）中的局限性，FedRDMA 将更新后的模型划分为若干块，并设计了一系列优化技术来提高基于 RDMA 的通信效率和鲁棒性。我们在工业联合学习框架之上实现了 FedRDMA，并在实际的跨ilo FL 场景中对其进行了评估。实验结果表明，与传统的基于 TCP/IP 的 FL 系统相比，该系统的通信效率最高可提高 3.8 倍。

34.Semi-Instruct: Bridging Natural-Instruct and Self-Instruct for Code Large Language Models

标题:半指导：为大型语言模型代码架起自然指令和自我指令的桥梁

author:Xianzhen Luo, Qingfu Zhu, Zhiming Zhang, Xu Wang, Qing Yang, Dongliang Xu, Wanxiang Che

date Time:2024-03-01

paper pdf:http://arxiv.org/pdf/2403.00338v1

摘要：
在程序合成任务中，指令调整在代码大型语言模型（Code LLMs）中起着举足轻重的作用。目前，自然指令（人工编写）和自编指令（自动生成）是收集调优数据的两种主流模式。自然指令包括多种正确的代码，但缺乏指令代码对，而且存在嵌套单行代码等不正确的代码格式。相比之下，自编指令能自动生成正确的成对数据。然而，由于生成重复数据，它的多样性较低，而且无法确保代码的正确性。为了弥合这两种范式，我们提出了 \textbf{Semi-Instruct}。它首先通过一种类似于自构造的方法，将自然构造中多样但不正确的代码转换成正确的指令代码对。为了验证生成代码的正确性，我们设计了一种新颖的方法来构建测试用例，即生成用例的输入，并执行 natural-instruct 中的正确代码以获得输出。最后，多样化的正确指令代码对被保留下来，用于指令调整。实验表明，半结构化方法的性能明显优于自然结构化方法和自结构化方法。此外，随着数据规模的扩大，性能也在稳步提高。

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop】