当前位置:   article > 正文

AI推介-大语言模型LLMs论文速览(arXiv方向):2024.04.25-2024.05.01

AI推介-大语言模型LLMs论文速览(arXiv方向):2024.04.25-2024.05.01

文章目录~

1.Soft Preference Optimization: Aligning Language Models to Expert Distributions

标题:软偏好优化:将语言模型与专家分布相匹配

author:Arsalan Sharifnassab, Sina Ghiassian, Saber Salehkaleybar, Surya Kanoria, Dale Schuurmans

date Time:2024-04-30

paper pdf:http://arxiv.org/pdf/2405.00747v2

摘要
我们提出的软偏好优化(SPO)是一种将生成模型(如大型语言模型(LLM))与人类偏好相协调的方法,而无需奖励模型。SPO 通过一个自然损失函数直接在偏好数据集上优化模型输出,该函数将偏好损失与正则化项整合在模型的整个输出分布上,而不是将其限制在偏好数据集上。虽然 SPO 不需要假设现有的底层奖励模型,但我们证明,在布拉德利-特里(BT)模型假设下,它能收敛到按比例奖励的软最大值,而分布的 "软度 "可通过软最大值指数(算法参数)进行调整。我们展示了 SPO 的方法论、理论基础及其在简单性、计算效率和排列精度方面的比较优势。

2.RepEval: Effective Text Evaluation with LLM Representation

标题:RepEval:使用 LLM 表示法进行有效的文本评估

author:Shuqian Sheng, Yi Xu, Tianhang Zhang, Zanwei Shen, Luoyi Fu, Jiaxin Ding, Lei Zhou, Xinbing Wang, Chenghu Zhou

date Time:2024-04-30

paper pdf:http://arxiv.org/pdf/2404.19563v1

摘要
生成文本的自动评估指标在 NLG 领域发挥着重要作用,特别是随着 LLM 的快速发展。然而,现有的度量标准往往局限于特定场景,难以满足不断扩大的 LLM 应用的评估要求。因此,人们需要新的、灵活而有效的度量标准。在本研究中,我们介绍了 RepEval,这是第一个利用 LLM 表示法的投影进行评估的指标。RepEval 只需要最少的样本对进行训练,通过简单的提示修改,它就能轻松过渡到各种任务。在三个任务的十个数据集上的结果表明,我们的方法非常有效,与之前的度量方法相比,它与人类判断的相关性更强,甚至优于 GPT-4。我们的工作强调了 LLM 表示法中蕴含的有关文本质量的丰富信息,为新度量方法的开发提供了启示。

3.RAG and RAU: A Survey on Retrieval-Augmented Language Model in Natural Language Processing

标题:RAG 和 RAU:自然语言处理中的检索增强语言模型概览

author:Yucheng Hu, Yuxing Lu

publish:30 pages, 7 figures. Draft version 1

date Time:2024-04-30

paper pdf:http://arxiv.org/pdf/2404.19543v1

摘要
大型语言模型(LLM)推动了自然语言处理(NLP)领域的重大进步,但也遇到了一些挑战,如幻觉和对特定领域知识的需求。为了缓解这些问题,最近的方法将从外部资源获取的信息与 LLMs 整合在一起,大大提高了它们在 NLP 任务中的性能。本调查论文针对检索增强语言模型(RALM)(包括检索增强生成模型(RAG)和检索增强理解模型(RAU))缺乏全面概述的问题,对其范式、演变、分类和应用进行了深入研究。论文讨论了 RALMs 的基本组成部分,包括检索器、语言模型和增强,以及它们之间的相互作用如何导致不同的模型结构和应用。从翻译和对话系统到知识密集型应用,RALMs 在各种任务中都显示出实用性。调查包括 RALMs 的几种评估方法,强调了鲁棒性、准确性和相关性在评估中的重要性。调查还承认了 RALMs 的局限性,尤其是在检索质量和计算效率方面,为未来的研究提供了方向。总之,本调查报告旨在对 RALMs、其潜力及其在 NLP 中的未来发展提供一个有条理的见解。本文还附有一个 Github 资源库,其中包含所调查的作品和进一步研究的资源:https://github.com/2471023025/RALM_Survey。

4.HydraLoRA: An Asymmetric LoRA Architecture for Efficient Fine-Tuning

标题:HydraLoRA:用于高效微调的非对称 LoRA 架构

author:Chunlin Tian, Zhan Shi, Zhijiang Guo, Li Li, Chengzhong Xu

publish:19 pages, 7 figures

date Time:2024-04-30

paper pdf:http://arxiv.org/pdf/2404.19245v2

摘要
通过微调使大型语言模型(LLM)适应新任务,参数高效微调(PEFT)技术(如 LoRA)的引入提高了效率。然而,与完全微调相比,这些方法的效果往往不佳,尤其是在涉及复杂数据集的情况下。在复杂的领域中,这个问题变得更加突出,这就凸显出需要改进 PEFT 方法,以获得更好的性能。通过一系列实验,我们发现了两个关键的见解,揭示了 LoRA 的训练和参数效率低下问题。基于这些见解,我们开发出了具有非对称结构的 LoRA 框架 HydraLoRA,该框架消除了对领域专业知识的需求。我们的实验证明,HydraLoRA 优于其他 PEFT 方法,甚至优于那些在训练和推理阶段依赖领域知识的方法。

5.Multi-hop Question Answering over Knowledge Graphs using Large Language Models

标题:利用大型语言模型在知识图谱上进行多跳问题解答

author:Abir Chakraborty

date Time:2024-04-30

paper pdf:http://arxiv.org/pdf/2404.19234v1

摘要
知识图谱(KG)是具有特定结构的大型数据集,代表大型知识库(KB),其中每个节点代表一个关键实体,它们之间的关系是类型化的边。从知识库中提取信息的自然语言查询需要从特定节点出发,对相应知识库的多条边进行推理,从而得出正确的答案节点集。传统的知识库问题解答方法基于:(a) 语义解析(SP),即使用节点和边嵌入生成逻辑形式(如 S 表达式、SPARQL 查询等),然后对这些表示或调整语言模型进行推理,直接生成最终答案;或 (b) 基于信息检索的方法,即按顺序提取实体和关系。在这项工作中,我们评估了(LLMs)在涉及多跳的 KG 上回答问题的能力。我们发现,根据 KG 的大小和性质,我们需要不同的方法来提取相关信息并将其提供给 LLM,因为每个 LLM 都有一个固定的上下文窗口。我们在有和没有特定示例子图的六种 KG 上对我们的方法进行了评估,结果表明基于 IR 和 SP 的方法都能被 LLM 采用,从而获得极具竞争力的性能。

6.What Drives Performance in Multilingual Language Models?

标题:是什么驱动了多语言语言模型的性能?

author:Sina Bagheri Nezhad, Ameeta Agrawal

publish:Accepted at VarDial @ NAACL 2024

date Time:2024-04-29

paper pdf:http://arxiv.org/pdf/2404.19159v1

摘要
本研究探讨了影响多语言大型语言模型(MLLMs)在不同语言中表现的因素。我们在 SIB-200 数据集(一个包含 204 种语言的主题分类数据集)上研究了 6 种 MLLM,包括屏蔽语言模型、自回归模型和指令调谐 LLM。我们的分析考虑了三种情况:所有语言、SEEN 语言(出现在模型的预训练数据中)和 UNSEEN 语言(未出现或未以任何有意义的方式记录在模型的预训练数据中)。我们研究了预训练数据大小、一般资源可用性、语系和脚本类型等因素对模型性能的影响。决策树分析表明,对于 SEEN 语言来说,预训练数据大小是影响最大的因素。但有趣的是,脚本类型和语系对 UNSEEN 语言至关重要,这突出了跨语言迁移学习的重要性。值得注意的是,模型大小和结构并没有明显改变已识别出的最重要特征。我们的研究结果为了解当前 MLLM 的优势和局限性提供了宝贵的见解,希望能为开发更有效、更公平的多语言 NLP 系统提供指导。

7.Automated Construction of Theme-specific Knowledge Graphs

标题:自动构建主题知识图谱

author:Linyi Ding, Sizhe Zhou, Jinfeng Xiao, Jiawei Han

date Time:2024-04-29

paper pdf:http://arxiv.org/pdf/2404.19146v1

摘要
尽管知识图谱(KG)在问题解答和智能对话系统等各种任务中得到了广泛应用,但现有的知识图谱面临着两大挑战:信息粒度和时效性不足。这在很大程度上阻碍了从知识图谱中检索和分析上下文、细粒度和最新知识,尤其是在高度专业化的主题(如专业科学研究)和快速发展的上下文(如突发新闻或灾难追踪)中。为了应对这些挑战,我们提出了特定主题知识图谱(即 ThemeKG)–一种由特定主题语料库构建的 KG,并设计了一个用于构建 ThemeKG 的无监督框架(命名为 TKGCon)。该框架利用原始的特定主题语料库生成高质量的 KG,其中包括主题下的突出实体和关系。具体来说,我们首先从维基百科中获取主题的实体本体,然后在此基础上通过大型语言模型(LLM)生成候选关系,构建关系本体。在解析主题语料库中的文档时,我们首先将提取的实体对映射到本体,然后检索候选关系。最后,我们结合上下文和本体来整合实体对的关系。我们发现,直接向 GPT-4 提示特定主题的 KG 会导致不准确的实体(如在查询结果中将 "两种主要类型 "作为一个实体)和不明确(如 “是”、“有”)或错误的关系(如 “由于”、“开始”)。相比之下,通过逐步构建特定主题的 KG,我们的模型优于 GPT-4,并能持续识别准确的实体和关系。实验结果还表明,与各种 KG 构建基线相比,我们的框架在评估中表现出色。

8.DPO Meets PPO: Reinforced Token Optimization for RLHF

标题:DPO 满足 PPO:强化代币优化 RLHF

author:Han Zhong, Guhao Feng, Wei Xiong, Li Zhao, Di He, Jiang Bian, Liwei Wang

date Time:2024-04-29

paper pdf:http://arxiv.org/pdf/2404.18922v1

摘要
在经典的人类反馈强化学习(RLHF)框架中,近端策略优化(Proximal Policy Optimization,PPO)被用于从稀疏的句子级奖励中进行学习–这在传统的深度强化学习中是一个具有挑战性的场景。尽管 PPO 在最先进的闭源大型语言模型(LLM)的对齐方面取得了巨大成功,但其开源实现在很大程度上仍未达到最佳状态,这一点已被众多研究广泛报道。为了解决这些问题,我们引入了一个框架,将 RLHF 问题建模为马尔可夫决策过程(Markov decision process,MDP),从而能够捕捉细粒度的标记信息。此外,我们还提供了理论见解,证明我们的 MDP 框架优于之前的句子级强盗表述。在此框架下,我们引入了一种被称为强化令牌优化(Reinforced Token Optimization,\texttt{RTO})的算法,它可以从偏好数据中学习令牌奖励函数,并根据学习到的令牌奖励信号执行策略优化。理论上,\texttt{RTO} 已被证明有能力高效地找到接近最优的策略样本。在实际应用中,texttt{RTO} 创新性地集成了直接偏好优化(DPO)和 PPO。DPO 最初源于稀疏句子奖励,它出人意料地为我们提供了响应质量的标记化特征,并将其无缝地融入到随后的 PPO 训练阶段。广泛的实际配准实验验证了所提方法的有效性。

9.More RLHF, More Trust? On The Impact of Human Preference Alignment On Language Model Trustworthiness

标题:更多 RLHF,更多信任?人类偏好对齐对语言模型可信度的影响

author:Aaron J. Li, Satyapriya Krishna, Himabindu Lakkaraju

date Time:2024-04-29

paper pdf:http://arxiv.org/pdf/2404.18870v1

摘要
大型语言模型(LLMs)的迅猛发展提高了认知任务的性能,同时也迫切需要使这些模型与人类价值观相一致,以便安全地利用它们的力量。尽管像 “从人类反馈强化学习”(RLHF)这样的偏好学习算法在调整人类偏好方面很有效,但它们对模型可信度的假定改进还没有得到彻底验证。为此,本研究调查了与关于有用性和无害性的通用偏好数据相一致的模型在五个可信度垂直领域的表现:毒性、刻板偏见、机器伦理、真实性和隐私。在模型对齐方面,我们重点关注三种广泛使用的 RLHF 变体:监督微调(SFT)、近端策略优化(PPO)和直接偏好优化(DPO)。通过广泛的实证调查,我们发现 RLHF 对可信度的改善远非保证,偏好数据、对齐算法和特定可信度之间存在复杂的相互作用。总之,我们的研究结果突出表明,模型配准需要更加细致入微的方法。通过揭示模型配准中这些组成部分的复杂动态,我们希望这项研究能引导社区开发出既有能力又值得信赖的语言模型。

10.Evaluating Concept-based Explanations of Language Models: A Study on Faithfulness and Readability

标题:评估基于概念的语言模型解释:忠实性和可读性研究

author:Meng Li, Haoran Jin, Ruixuan Huang, Zhihao Xu, Defu Lian, Zijia Lin, Di Zhang, Xiting Wang

date Time:2024-04-29

paper pdf:http://arxiv.org/pdf/2404.18533v2

摘要
尽管大型语言模型(LLMs)表现出了惊人的高智商,但考虑到其黑箱性质,我们对将其完全部署到现实生活中的应用感到有些畏惧。基于概念的解释是解释 LLMs 所学知识的一个很有前景的途径,它可以使 LLMs 对人类更加透明。然而,目前对概念的评估往往是启发式和非确定性的,例如案例研究或人类评估,这阻碍了该领域的发展。为了弥补这一差距,我们通过忠实性和可读性来进行基于概念的解释评估。我们首先介绍了概念的正式定义,该定义适用于各种基于概念的解释。在此基础上,我们通过扰动时输出的差异来量化忠实度。然后,我们通过测量能最大程度激活概念的模式的一致性,提供了可读性的自动测量方法。这种测量方法可以经济、可靠地替代人工评估。最后,我们以测量理论为基础,描述了一种元评估方法,通过信度和效度对上述测量方法进行评估,该方法也可推广到其他任务中。我们进行了广泛的实验分析,以验证和指导概念评估方法的选择。

11.HFT: Half Fine-Tuning for Large Language Models

标题:HFT:大型语言模型的半微调

author:Tingfeng Hui, Zhenyu Zhang, Shuohuan Wang, Weiran Xu, Yu Sun, Hua Wu

publish:Work in progress

date Time:2024-04-29

paper pdf:http://arxiv.org/pdf/2404.18466v1

摘要
具有一个或多个微调阶段的大型语言模型(LLMs)已成为释放各种能力的必要步骤,使 LLMs 能够遵循自然语言指令或符合人类偏好。然而,在连续训练过程中,前几个阶段学到的参数知识或能力可能会被新的训练数据淹没,从而带来灾难性遗忘的风险。在本文中,我们发现通过定期重置部分参数,LLM 可以恢复部分原有知识。受此启发,我们为 LLMs 引入了半微调 (HFT),作为全微调 (FFT) 的替代品,以缓解遗忘问题。我们从优化的角度进行了可行性分析,并将参数选择操作解释为正则化项。在不改变模型架构的情况下,HFT 可以无缝集成到现有的微调框架中。在监督微调、直接偏好优化和持续学习方面进行的大量实验和分析一致证明了 HFT 的有效性、稳健性和高效性。与 FFT 相比,HFT 不仅大大缓解了遗忘问题,而且在一系列下游基准测试中取得了最佳性能,减少了约 30% 的训练时间。

12.LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report

标题:LoRA Land:可与 GPT-4 相媲美的 310 个微调 LLM,技术报告

author:Justin Zhao, Timothy Wang, Wael Abid, Geoffrey Angus, Arnav Garg, Jeffery Kinnison, Alex Sherstinsky, Piero Molino, Travis Addair, Devvret Rishi

date Time:2024-04-29

paper pdf:http://arxiv.org/pdf/2405.00732v1

摘要
低等级适应(Low Rank Adaptation,LoRA)已成为大型语言模型(LLM)参数高效微调(Parameter Efficient Fine-Tuning,PEFT)最广泛采用的方法之一。LoRA 减少了可训练参数的数量和内存使用量,同时实现了与完全微调相当的性能。我们的目标是评估在实际应用中使用 LoRA 微调训练和服务 LLM 的可行性。首先,我们在 10 个基本模型和 31 个任务(共 310 个模型)中测量了使用量化低等级适配器微调的 LLM 的质量。我们发现,经过 4 位 LoRA 微调的模型平均比基础模型高出 34 分,比 GPT-4 高出 10 分。其次,我们研究了最有效的微调基础模型,并评估了任务复杂性启发式方法在预测微调结果方面的相关性和预测能力。最后,我们对 LoRAX 的延迟和并发能力进行了评估。LoRAX 是一款开源的多 LoRA 推理服务器,可通过共享基础模型权重和动态适配器加载,在单个 GPU 上部署多个 LoRA 微调模型。LoRAX 为 LoRA Land 提供动力,LoRA Land 是一款网络应用程序,可在单个配备 80GB 内存的英伟达 A100 GPU 上托管 25 个经过 LoRA 微调的 Mistral-7B LLM。与单个通用 LLM 相比,LoRA Land 突出了采用多个专用 LLM 的质量和成本效益。

13.Mixture-of-Instructions: Comprehensive Alignment of a Large Language Model through the Mixture of Diverse System Prompting Instructions

标题:混合指令:通过混合不同的系统提示指令全面调整大型语言模型

author:Bowen Xu, Shaoyu Wu, Kai Liu, Lulu Hu

date Time:2024-04-29

paper pdf:http://arxiv.org/pdf/2404.18410v1

摘要
随着大型语言模型(LLMs)的大量涌现,如何在多个任务中对这些模型进行综合配准已成为一个重要的研究领域。现有的配准方法主要针对单一任务,例如多轮对话、编码、数学问题解决和工具使用。然而,利用语言模型的人工智能驱动产品通常需要融合这些能力,才能在现实世界中有效发挥作用。此外,正确对齐 LLMs 需要大量计算资源,因此需要一种更强大、更高效、更全面的多任务对齐方法,以确保提高生成性能。为了应对这些挑战,我们引入了一种名为 “指令混合”(MoI)的新技术,该技术采用指令串联策略,结合多样化的系统提示来提高语言模型的配准效率。我们还汇编了七种不同的基准数据集,以严格评估经 MoI 增强的语言模型的配准效率。我们的方法被应用于开源的 Qwen-7B 聊天模型,最终开发出了 Qwen-SFT-MoI。该增强型模型在编码、数学和工具使用任务的生成能力方面取得了显著进步。

14.FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models

标题:FoundaBench:评估大型语言模型的中文基础知识能力

author:Wei Li, Ren Ma, Jiang Wu, Chenya Gu, Jiahui Peng, Jinyang Len, Songyang Zhang, Hang Yan, Dahua Lin, Conghui He

date Time:2024-04-29

paper pdf:http://arxiv.org/pdf/2404.18359v1

摘要
在方兴未艾的大型语言模型(LLMs)领域,基础知识的评估仍然是一个严峻的挑战,尤其是针对中国语言和文化的模型。本文介绍了 FoundaBench,这是一项开创性的基准测试,旨在严格评估中文 LLM 的基础知识能力。FoundaBench 包含 3354 道选择题,涵盖常识和 K-12 教育科目,经过精心策划,以反映日常知识和学术知识的广度和深度。我们利用 FoundaBench 对 12 个最先进的 LLM 进行了广泛的评估,采用了传统的评估方法和我们的 CircularEval 协议,以减少模型回答中的潜在偏差。我们的结果凸显了在中文语料库中预先训练的模型的优越性能,并揭示了模型的推理能力和记忆回忆能力之间的显著差异。从 FoundaBench 评估中获得的见解为理解 LLMs 的基础知识设定了新标准,为该领域未来的发展提供了一个强大的框架。

15.Tabular Embedding Model (TEM): Finetuning Embedding Models For Tabular RAG Applications

标题:表格嵌入模型 (TEM):针对表格 RAG 应用微调嵌入模型

author:Sujit Khanna, Shishir Subedi

publish:11 pages, 5 figures

date Time:2024-04-28

paper pdf:http://arxiv.org/pdf/2405.01585v1

摘要
近来,大型语言模型展现出了巨大的能力,尤其是在数学、代码生成和通用推理领域。然而,对于专业领域,尤其是需要解析和分析大块数字或表格数据的应用,即使是最先进的(SOTA)模型也难以胜任。在本文中,我们介绍了一种解决特定领域表格数据分析任务的新方法,即提出一种独特的 RAG 工作流程,以缓解现有表格 LLM 解决方案的可扩展性问题。具体地说,我们提出了表格嵌入模型(TEM),这是一种为表格检索-增强生成(RAG)应用微调嵌入模型的新方法。嵌入模型是 RAG 工作流程中的重要组成部分,即使是当前的 SOTA 嵌入模型也很吃力,因为它们主要是在文本数据集上训练的,因此在涉及复杂表格数据的情况下表现不佳。评估结果表明,在这一领域,我们的方法不仅优于当前的 SOTA 嵌入模型,而且模型结构更小、更高效。

16.CRE-LLM: A Domain-Specific Chinese Relation Extraction Framework with Fine-tuned Large Language Model

标题:CRE-LLM:采用微调大语言模型的特定领域中文关系提取框架

author:Zhengpeng Shi, Haoran Luo

publish:preprint

date Time:2024-04-28

paper pdf:http://arxiv.org/pdf/2404.18085v1

摘要
特定领域中文关系提取(DSCRE)旨在从特定领域的中文文本中提取实体之间的关系。尽管近年来 PLM(尤其是 LLM)发展迅速,但 DSCRE 仍然面临着三个核心挑战:复杂的网络结构设计、感知能力差、微调消耗大。鉴于大型语言模型(LLM)在自然语言处理中的出色表现,我们提出了一个名为 CRE-LLM 的新框架。该框架基于微调开源 LLM,如 Llama-2、ChatGLM2 和 Baichuan2。CRE-LLM 通过构建适当的提示和利用开源 LLM 进行指令监督微调,增强了模型的逻辑感知和生成能力。然后,它直接提取输入文本数据中给定实体的关系,从而改进了 CRE 方法。为了证明所提框架的有效性,我们在两个特定领域的 CRE 数据集 FinRE 和 SanWen 上进行了大量实验。实验结果表明,CRE-LLM 具有明显的优越性和鲁棒性,在 FinRE 数据集上达到了最先进(SOTA)的性能。本文通过将 LLM 与三元组相结合,为语义更为复杂的特定领域关系提取(DSCRE)任务引入了一种新方法。我们的代码已公开发布。

17.VANER: Leveraging Large Language Model for Versatile and Adaptive Biomedical Named Entity Recognition

标题:VANER:利用大型语言模型实现多功能自适应生物医学命名实体识别

author:Junyi Biana, Weiqi Zhai, Xiaodi Huang, Jiaxuan Zheng, Shanfeng Zhu

date Time:2024-04-27

paper pdf:http://arxiv.org/pdf/2404.17835v1

摘要
针对 BioNER 的普遍解决方案包括使用表征学习技术和序列标记。然而,这些方法本质上是针对特定任务的,通用性差,而且通常需要为每个数据集建立专用模型。为了利用最近引人注目的大型语言模型(LLM)的多功能性,一些研究人员探索了实体提取的生成方法。然而,这些方法往往达不到以前序列标注方法的效果。在本文中,我们利用开源的 LLM LLaMA2 作为骨干模型,并设计了特定的指令来区分不同类型的实体和数据集。通过将 LLM 对指令的理解与序列标注技术相结合,我们使用混合数据集来训练一个能够提取各种类型实体的模型。鉴于骨干 LLM 缺乏专业的医学知识,我们还整合了外部实体知识库,并采用指令调整来迫使模型密集识别精心策划的实体。我们的模型 VANER 只使用了一小部分参数进行训练,其性能明显优于以往基于 LLMs 的模型,而且作为基于 LLM 的模型,它首次超越了大多数传统的最先进 BioNER 系统,在三个数据集上获得了最高的 F1 分数。

18.Meta In-Context Learning Makes Large Language Models Better Zero and Few-Shot Relation Extractors

标题:元上下文学习让大型语言模型更出色 零镜头和少镜头关系提取器

author:Guozheng Li, Peng Wang, Jiajun Liu, Yikai Guo, Ke Ji, Ziyu Shang, Zijie Xu

publish:IJCAI 2024

date Time:2024-04-27

paper pdf:http://arxiv.org/pdf/2404.17807v1

摘要
关系提取(RE)是一项重要任务,旨在识别文本中实体之间的关系。虽然大型语言模型(LLM)在一般的零点学习和少点学习方面已经显示出卓越的上下文学习(ICL)能力,但最近的研究表明,目前的 LLM 在零点和少点 RE 方面仍然很吃力。以往的研究主要致力于设计提示格式和选择优秀示例,以改进基于 ICL 的 RE。虽然这两个因素对 ICL 都至关重要,但如果能从根本上提高 LLM 在 RE 中的 ICL 能力,那么通过 ICL 实现的零点和少点 RE 性能将得到显著提高。为此,我们介绍了一种新的用于零点和少点 RE 的元训练框架–textsc{Micre}(textbf{M}eta \textbf{I}n-\textbf{C}ontext learning of LLMs for \textbf{R}elation \textbf{E}extraction),在这个框架中,LLM 被调整为在不同的 RE 数据集上进行 ICL(即学会在 RE 的上下文中学习)。通过元训练,模型可以在推理时不更新参数或特定任务模板的情况下,以少量训练实例为条件,更有效地在上下文中学习新的 RE 任务,从而实现更好的零次和少量任务泛化。我们在各种具有不同模型规模的LLM和12个公开的RE数据集上对\textsc{Micre}进行了实验,然后在零点和少点设置下在未见的RE基准上对其进行了评估。\与一系列基线方法(包括监督微调和典型的上下文学习方法)相比,textsc{Micre}的性能相当或更优。我们发现,在模型规模较大的情况下,\textsc{Micre}的收益尤为显著,而使用不同的元训练RE数据集是提高性能的关键。经验表明,在目标 RE 数据集上进行推理时,textsc{Micre} 可以通过关系标签名称传递关系语义知识。

19.Continual Learning of Large Language Models: A Comprehensive Survey

标题:大型语言模型的持续学习:全面调查

author:Haizhou Shi, Zihao Xu, Hengyi Wang, Weiyi Qin, Wenyuan Wang, Yibin Wang, Hao Wang

publish:57 pages, 2 figures, 4 tables. Work in progress

date Time:2024-04-25

paper pdf:http://arxiv.org/pdf/2404.16789v1

摘要
最近,在静态、预先收集的通用数据集上训练的大型语言模型(LLM)取得了成功,这引发了众多研究方向和应用。其中一个方向是解决将预先训练好的 LLM 整合到动态数据分布、任务结构和用户偏好中这一非同小可的挑战。针对特定需求定制的预训练 LLM 在以前的知识领域往往会出现明显的性能下降–这种现象被称为 “灾难性遗忘”。虽然持续学习(CL)领域对这种现象进行了广泛的研究,但它在 LLM 领域却呈现出新的表现形式。在本调查报告中,我们将全面概述当前在持续学习背景下有关 LLM 的研究进展。本调查报告分为四个主要部分:我们首先概述了持续学习的 LLMs,包括两个方向的连续性:纵向连续性(或纵向持续学习),即从一般能力到特定能力的持续适应;横向连续性(或横向持续学习),即跨时间和领域的持续适应(第 3 节)。然后,我们总结了在现代CL背景下学习LLM的三个阶段:持续预训练(CPT)、领域适应性预训练(DAP)和持续微调(CFT)(第4节)。然后,我们将概述使用 LLMs 进行持续学习的评估协议以及当前可用的数据源(第 5 节)。最后,我们将讨论与 LLM 持续学习相关的有趣问题(第 6 节)。本调查所涉及的全部论文可在 https://github.com/Wang-ML-Lab/llm-continual-learning-survey 上查阅。

20.Evaluating Consistency and Reasoning Capabilities of Large Language Models

标题:评估大型语言模型的一致性和推理能力

author:Yash Saxena, Sarthak Chopra, Arunendra Mani Tripathi

date Time:2024-04-25

paper pdf:http://arxiv.org/pdf/2404.16478v1

摘要
如今,大型语言模型(LLMs)被广泛应用于学术、研究、商业和金融等各个领域,用于文本生成、摘要和翻译等任务。尽管这些模型被广泛采用,但它们往往会产生错误和误导性信息,表现出幻觉倾向。这种行为可归因于多个因素,其中一致性和推理能力是重要原因。LLM 经常缺乏产生解释和进行连贯推理的能力,从而导致不准确的反应。此外,它们在输出中也表现出不一致性。本文旨在评估和比较公共和专有 LLM 的一致性和推理能力。实验使用 Boolq 数据集作为基本事实,其中包括问题、答案和相应的解释。数据集中的查询会作为提示呈现给 LLM,生成的回复会根据基本真实答案进行评估。此外,生成的解释可用于评估模型的推理能力。评估一致性的方法是反复向模型提出相同的查询,并观察它们的回答是否有变化。为了衡量推理能力,使用 BERT、BLEU 和 F-1 分数等指标将生成的解释与地面实况解释进行比较。研究结果表明,专有模型在一致性和推理能力方面普遍优于公共模型。然而,即使面对基本的常识性问题,也没有一个模型在一致性和推理能力方面达到 90% 的分数。这项研究强调了 LLM 的一致性和推理能力之间的直接相关性,并凸显了当前语言模型在推理方面所面临的固有挑战。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/656995
推荐阅读
相关标签
  

闽ICP备14008679号