赞
踩
标题:子目标蒸馏:改进小型语言代理的方法
author:Maryam Hashemzadeh, Elias Stengel-Eskin, Sarath Chandar, Marc-Alexandre Cote
date Time:2024-05-04
paper pdf:http://arxiv.org/pdf/2405.02749v1
摘要:
虽然大型语言模型(LLMs)作为交互任务中的代理已显示出巨大的前景,但其巨大的计算需求和有限的调用次数限制了其实际效用,特别是在决策等长时交互任务或涉及持续不断任务的场景中。为了解决这些制约因素,我们提出了一种方法,将拥有数十亿参数的 LLM 的性能转移到更小的语言模型(7.7 亿参数)中。我们的方法包括构建一个由规划模块和执行模块组成的分层代理,规划模块通过从 LLM 中进行知识提炼来生成子目标,而执行模块则通过学习使用基本动作来完成这些子目标。具体来说,我们利用 LLM,为完成目标的子目标序列标注一条 Oracle 路径。随后,我们利用这些注释数据对规划和执行模块进行微调。重要的是,这两个模块在推理过程中都不依赖于对 LLM 的实时访问,从而将与 LLM 交互相关的总成本大幅降低为固定成本。在科学世界(ScienceWorld)这一具有挑战性的多任务交互式文本环境中,我们的方法比完全基于基本动作的标准模仿学习方法高出 16.7%(绝对值)。与其他基于 LLM 的方法相比,我们的分析凸显了我们方法的效率。我们的代码和用于蒸馏的注释数据可在 GitHub 上找到。
标题:超越性能:量化和减轻 LLM 中的标签偏差
author:Yuval Reif, Roy Schwartz
publish:NAACL 2024
date Time:2024-05-04
paper pdf:http://arxiv.org/pdf/2405.02743v1
摘要:
大型语言模型(LLM)通过利用包含指令的上下文提示或最小输入输出示例,显示出对各种任务的出色适应性。然而,最近的研究发现,它们也会表现出标签偏差,即偏向于预测某些答案而不是其他答案,这是不可取的。不过,如何可靠地大规模检测和测量这种偏差,相对来说仍有待探索。在本研究中,我们评估了量化模型预测中标签偏差的不同方法,对 279 个分类任务和 10 个 LLM 进行了全面调查。我们的研究揭示了去标签化尝试前后模型中存在的大量标签偏差,并强调了基于结果的评价指标的重要性,而这些指标以前并未在这方面使用过。我们进一步提出了一种新颖的标签偏差校准方法,该方法专为少量提示量身定制,在提高性能和减轻标签偏差方面都优于最近的校准方法。我们的研究结果强调,LLM 预测中的标签偏差仍然是影响其可靠性的一个障碍。
标题:全部召回:从长文档中提取长对象列表的检索增强语言模型
author:Sneha Singhania, Simon Razniewski, Gerhard Weikum
date Time:2024-05-04
paper pdf:http://arxiv.org/pdf/2405.02732v1
摘要:
从文本中提取关系的方法大多注重高精确度,但却以有限的召回率为代价。不过,高召回率对于填充与特定主题有特定关系的对象实体的长列表至关重要。相关对象的线索可能分布在长文本的许多段落中。这就给从长文本中提取长列表带来了挑战。我们提出的 L3X 方法分两个阶段解决这一问题:(1) 使用大语言模型(LLM)和明智的检索增强技术,以召回为导向生成;(2) 以精确度为导向进行仔细检查,以验证或删除候选对象。我们的 L3X 方法大大优于纯 LLM 生成方法。
标题:CoE-SQL:多轮文本到 SQL 的上下文学习与增补链
author:Hanchong Zhang, Ruisheng Cao, Hongshen Xu, Lu Chen, Kai Yu
date Time:2024-05-04
paper pdf:http://arxiv.org/pdf/2405.02712v1
摘要:
最近,大型语言模型(LLM)在各种领域和任务中的表现令人印象深刻。我们研究了多轮文本到 SQL 任务中的提示设计问题,并尝试增强 LLM 在生成 SQL 查询时的推理能力。在会话语境中,由于上下文的依赖性,当前的 SQL 查询只需少量操作就能从之前的 SQL 查询中修改出来。我们介绍了一种名为 CoE-SQL 的方法,它能促使 LLMs 根据先前生成的 SQL 查询生成带有编辑链的 SQL 查询。我们还进行了广泛的消融研究,以确定我们方法的最佳配置。我们的方法稳定地超越了不同的上下文学习基线,并在使用 LLMs 的两个基准 SParC 和 CoSQL 上实现了最先进的性能,与 SOTA 微调模型相比也具有竞争力。
标题:Open-SQL 框架:在开源大型语言模型上增强文本到 SQL 的功能
author:Xiaojun Chen, Tianle Wang, Tianhao Qiu, Jianbin Qin, Min Yang
date Time:2024-05-04
paper pdf:http://arxiv.org/pdf/2405.06674v1
摘要:
尽管大语言模型(LLMs)在文本到 SQL 任务中取得了成功,但开源 LLMs 在上下文理解和响应一致性方面遇到了挑战。为了解决这些问题,我们提出了 \ours 这一为使用开源 LLMs 的 Text-to-SQL 量身定制的系统方法。我们的贡献包括:在文本到 SQL 任务中对开源 LLM 进行全面评估;采用 \openprompt 策略进行有效的问题表示;以及采用新颖的策略进行监督微调。我们探索了 Chain-of-Thought 在逐步推理中的优势,并提出了 \openexample 方法来增强少量学习。此外,我们还引入了标记高效技术,如 \textbf{Variable-length Open DB Schema}、 \textbf{Target Column Truncation} 和 \textbf{Example Column Truncation},以应对大规模数据库中的挑战。我们的研究结果强调了进一步研究有监督微调对上下文学习能力的影响的必要性。值得注意的是,在BIRD-Dev数据集上,我们的方法将Llama2-7B的性能从2.54%大幅提高到41.04%,将Code Llama-7B的性能从14.54%提高到48.24%。值得注意的是,在 BIRD-Dev 数据集上,Code Llama-7B 的性能超过了 GPT-4 (46.35%)。
标题:R4:用于检索增强大型语言模型的强化检索器-指令-应答器
author:Taolin Zhang, Dongyang Li, Qizhou Chen, Chengyu Wang, Longtao Huang, Hui Xue, Xiaofeng He, Jun Huang
date Time:2024-05-04
paper pdf:http://arxiv.org/pdf/2405.02659v1
摘要:
检索增强大语言模型(LLM)利用信息检索系统检索到的相关内容生成正确的回复,旨在缓解幻觉问题。然而,现有的检索器-应答器方法通常会将相关文档附加到 LLM 的提示中,以执行文本生成任务,而不考虑检索文档和 LLM 之间细粒度结构语义的交互作用。这个问题对于准确生成回复尤为重要,因为 LLM 在处理添加了冗长文档的输入提示时往往会 “半途而废”。在这项工作中,我们提出了一个名为 “强化检索器-重排序-应答器”(R
4
^4
4)的新管道,用于学习检索增强型 LLM 的文档排序,从而在 LLM 的大量参数保持冻结的情况下进一步提高其生成能力。根据生成响应的质量,重新排序学习过程分为两个步骤:文档排序调整和文档表示增强。具体来说,文档排序调整的目的是根据图注意学习将检索到的文档排序组织到开头、中间和结尾位置,从而最大化响应质量的强化奖励。文档表征增强则是通过文档级梯度对抗学习,针对质量较差的响应进一步完善检索文档的表征。广泛的实验证明,与各种公共数据集上的强基线相比,我们提出的管道在知识密集型任务中实现了更好的事实问题解答性能。源代码和训练好的模型将在论文被接受后发布。
标题:Astro-NER – 天文命名实体识别:GPT 是一个好的领域专家注释器吗?
author:Julia Evans, Sameer Sadruddin, Jennifer D’Souza
publish:9 pages
date Time:2024-05-04
paper pdf:http://arxiv.org/pdf/2405.02602v1
摘要:
在本研究中,我们解决了为学术领域开发 NER 模型所面临的挑战之一,即缺少合适的标注数据。我们试验了一种方法,利用微调 LLM 模型的预测来帮助非领域专家注释天文学文献中的科学实体,目的是揭示这种协作过程是否能接近领域专业知识。我们的结果表明,领域专家与 LLM 辅助的非专家之间的一致性适中,领域专家与 LLM 模型的预测之间的一致性尚可。在另一项实验中,我们比较了经过微调的 LLM 和默认 LLM 在这项任务中的表现。我们还为天文学引入了专门的科学实体注释方案,并由领域专家进行了验证。我们的方法采用了以学术研究贡献为中心的视角,只关注与研究主题相关的科学实体。由此产生的数据集包含 5,000 个注释的天文学文章标题,并已公开发布。
标题:评估开放研究知识图谱中用于结构化科学总结的大型语言模型
author:Vladyslav Nechakhin, Jennifer D’Souza, Steffen Eger
publish:22 pages, 11 figures. In review at
https://www.mdpi.com/journal/information/special_issues/WYS02U2GTD
date Time:2024-05-03
paper pdf:http://arxiv.org/pdf/2405.02105v1
摘要:
利用传统关键词之外的属性或维度对科学摘要或研究贡献进行结构化,可以提高科学的可查找性。目前的方法,如开放式研究知识图谱(ORKG)所使用的方法,涉及手动策划属性,以结构化的方式描述研究论文的贡献,但这是劳动密集型的,而且领域专家人类策划者之间也不一致。我们建议使用大型语言模型(LLM)来自动建议这些属性。不过,在应用之前,有必要评估 GPT-3.5、Llama 2 和 Mistral 等 LLM 是否已准备好完成这项任务。我们的研究对 ORKG 人工策划的属性和上述最先进的 LLM 生成的属性进行了全面的比较分析。我们从四个独特的角度来评估 LLM 的性能:与 ORKG 属性的语义一致性和偏差、细粒度属性映射的准确性、基于 SciNCL 嵌入的余弦相似性,以及比较人工注释和 LLM 输出的专家调查。这些评估都是在多学科科学背景下进行的。总体而言,LLM 显示出了作为科学结构化推荐系统的潜力,但建议进一步微调,以提高其与科学任务的一致性和对人类专业知识的模仿。
标题:改善视觉语言概念瓶颈模型中的概念对齐问题
author:Nithish Muthuchamy Selvaraj, Xiaobao Guo, Bingquan Shen, Adams Wai-Kin Kong, Alex Kot
date Time:2024-05-03
paper pdf:http://arxiv.org/pdf/2405.01825v1
摘要:
概念瓶颈模型(CBM)将输入图像映射到人类可理解的高级概念空间,然后根据这些概念进行类别预测。最近的方法通过提示大型语言模型(LLM)生成文本概念,然后使用视觉语言模型(VLM)获得概念分数来训练 CBM,从而实现 CBM 的自动构建。然而,人们希望用人类专家定义的概念而不是 LLM 生成的概念来构建 CBM,以使其更可信。在这项工作中,我们对细粒度鸟类物种分类和动物分类等领域中由专家定义的 VLM 概念得分的可信度进行了仔细研究。我们的研究发现,冻结的 VLM(如 CLIP)尽管能实现较高的分类性能,但却难以正确地将概念与相应的视觉输入关联起来。为了解决这个问题,我们提出了一种新颖的对比半监督(CSS)学习方法,该方法使用少量标记的概念示例来改进 CLIP 模型中的概念对齐(激活真实的视觉概念)。在三个基准数据集上进行的广泛实验表明,我们的方法大大提高了概念准确率和分类准确率,但只需要一小部分人工标注的概念标签。为了进一步提高分类性能,我们还针对细粒度分类问题引入了新的类级干预程序,该程序可识别混淆类并干预其概念空间以减少误差。
标题:COPAL:大型语言生成模型中的连续剪枝
author:Srikanth Malla, Joon Hee Choi, Chiho Choi
publish:Accepted to ICML2024
date Time:2024-05-02
paper pdf:http://arxiv.org/pdf/2405.02347v1
摘要:
将预先训练好的大型语言模型适应自然语言处理中的不同领域需要考虑两个关键问题:高计算需求和模型无法持续适应。为了同时解决这两个问题,本文介绍了 COPAL(自适应语言设置中的持续剪枝),这是一种在持续模型适应设置下为剪枝大型语言生成模型而开发的算法。在避免资源密集型微调或重新训练的同时,我们的剪枝过程以提出的灵敏度分析为指导。灵敏度可有效衡量模型承受新数据集引入的扰动的能力,并找到与所有遇到的数据集相关的模型权重。因此,COPAL 可以使模型无缝适应新领域,同时提高资源效率。我们在各种规模的 LLM 上进行的实证评估表明,COPAL 优于基准模型,证明了其在效率和适应性方面的功效。
标题:FLAME:大型语言模型的事实意识对齐
author:Sheng-Chieh Lin, Luyu Gao, Barlas Oguz, Wenhan Xiong, Jimmy Lin, Wen-tau Yih, Xilun Chen
date Time:2024-05-02
paper pdf:http://arxiv.org/pdf/2405.01525v1
摘要:
对齐是一种标准程序,用于微调预训练的大型语言模型(LLM),使其遵循自然语言指令,成为有用的人工智能助手。然而,我们观察到,传统的对齐过程无法提高 LLM 的事实准确性,往往会导致生成更多虚假事实(即幻觉)。在本文中,我们研究了如何使 LLM 对齐过程更符合事实,首先确定了在两个对齐步骤中导致幻觉的因素:监督微调(SFT)和强化学习(RL)。特别是,我们发现在新知识或不熟悉的文本上训练 LLM 会助长幻觉。这使得 SFT 的实际效果大打折扣,因为它使用的是人类标注的数据,而这些数据对 LLM 来说可能是陌生的。此外,标准 RL 中使用的奖励函数也会助长幻觉,因为它会引导 LLM 对不同的指令集做出更有帮助的回答,而 LLM 往往更喜欢更长、更详细的回答。基于这些观察结果,我们提出了事实感知对齐方法,包括通过直接偏好优化实现的事实感知 SFT 和事实感知 RL。实验表明,我们提出的事实感知对齐方法可以引导 LLM 输出更多事实性回复,同时保持指令遵循能力。
标题:分析语义表征在大型语言模型时代的作用
author:Zhijing Jin, Yuen Chen, Fernando Gonzalez, Jiarui Liu, Jiayi Zhang, Julian Michael, Bernhard Schölkopf, Mona Diab
publish:NAACL 2024
date Time:2024-05-02
paper pdf:http://arxiv.org/pdf/2405.01502v1
摘要:
传统上,自然语言处理(NLP)模型通常使用由语言专业知识创建的丰富特征集,如语义表征。然而,在大型语言模型(LLM)时代,越来越多的任务变成了通用的端到端序列生成问题。本文研究的问题是:语义表征在 LLM 时代的作用是什么?具体来说,我们研究了抽象意义表征(AMR)在五种不同的 NLP 任务中的作用。我们提出了一种由 AMR 驱动的思维链提示方法(我们称之为 AMRCoT),并发现这种方法通常对成绩的影响大于帮助。为了研究 AMR 在这些任务中的作用,我们进行了一系列分析实验。我们发现,很难预测 AMR 对哪些输入示例有帮助或有损害,但错误往往出现在多词表达、命名实体以及最后的推理步骤中,在这一步骤中,LLM 必须将其对 AMR 的推理与预测联系起来。我们建议今后在 LLM 语义表征方面的工作重点放在这些领域。我们的代码:https://github.com/causalNLP/amr_llm.
标题:GAIA:用于智能加速器运行的通用人工智能助手
author:Frank Mayet
date Time:2024-05-02
paper pdf:http://arxiv.org/pdf/2405.01359v1
摘要:
粒子加速器等大型机器通常由经验丰富的操作员团队负责运行。就粒子加速器而言,这些操作员都具备有关加速器物理和机器技术的适当背景知识。由于机器的复杂性,机器的特定子系统由操作员可以求助的专家负责。在这项工作中,推理与行动(ReAct)提示范式被用于将开放式权重大型语言模型(LLM)与高级机器控制系统框架和其他工具(如电子日志或机器设计文档)结合起来。这样,就实现了一个多专家检索增强生成(RAG)系统,该系统可协助操作员完成知识检索任务,在需要时直接与机器交互,或编写高级控制系统脚本。这种专家知识与机器交互的整合可以简化和加快新老操作员的机器操作任务。
标题:通过人机大语言模型协作生成数学选择题
author:Jaewook Lee, Digory Smith, Simon Woodhead, Andrew Lan
publish:17th International Conference on Educational Data Mining (EDM 2024)
date Time:2024-05-01
paper pdf:http://arxiv.org/pdf/2405.00864v1
摘要:
多项选择题(MCQ)因其管理和评分效率高而成为评价学生知识水平的常用方法。制作高质量的数学 MCQ 是一个劳动密集型过程,需要教育工作者制定精确的题干和合理的干扰项。大语言模型(LLM)的最新进展激发了人们对自动创建 MCQ 的兴趣,但在确保数学准确性和解决学生错误方面仍存在挑战。本文介绍了一种原型工具,旨在促进 LLM 与教育工作者之间的合作,以简化数学 MCQ 生成流程。我们开展了一项有数学教育工作者参与的试点研究,以调查该工具如何帮助他们简化制作高质量数学 MCQ 的过程。我们发现,虽然 LLM 可以生成表述清晰的问题题干,但其生成能捕捉学生常见错误和误解的干扰项的能力却很有限。不过,人类与人工智能的合作有可能提高 MCQ 生成的效率和效果。
标题:在用于主题建模的大型语言模型中解决主题粒度和幻觉问题
author:Yida Mu, Peizhen Bai, Kalina Bontcheva, Xingyi Song
date Time:2024-05-01
paper pdf:http://arxiv.org/pdf/2405.00611v1
摘要:
大语言模型(LLMs)具有强大的零镜头主题提取能力,可替代概率主题建模和封闭集主题分类方法。作为零镜头主题提取器,LLMs 可以理解人类的指令,根据给定文档生成相关的非幻觉主题。然而,基于 LLM 的主题建模方法在生成与人类指令中指定的粒度一致的主题时经常会遇到困难,往往会产生许多近乎重复的主题。此外,解决由 LLM 生成的幻觉主题的方法尚未得到研究。在本文中,我们将重点解决主题粒度和幻觉问题,以更好地建立基于 LLM 的主题建模。为此,我们引入了一种新方法,利用直接偏好优化(DPO)对 Mistral-7B 等开源 LLM 进行微调。我们的方法不依赖传统的人工注释来排列首选答案,而是采用重构管道来修改由 LLM 生成的原始主题,从而实现了快速高效的训练和推理框架。对比实验表明,我们的微调方法不仅显著提高了 LLM 生成更加连贯、相关和精确主题的能力,还减少了幻觉主题的数量。
标题:研究使用大型语言模型进行自动评分和反馈
author:Gloria Ashiya Katuka, Alexander Gain, Yen-Yun Yu
date Time:2024-05-01
paper pdf:http://arxiv.org/pdf/2405.00602v1
摘要:
长期以来,人们一直在使用传统的机器学习和使用语言模型的深度学习技术研究自动分级和反馈。最近,随着 LLaMA-2 等高性能大型语言模型(LLM)的出现,我们有机会研究如何将这些 LLM 用于自动分级和反馈生成。尽管性能有所提高,但 LLM 需要大量的计算资源来进行微调和额外的特定调整,以提高其在此类任务中的性能。为了解决这些问题,人们采用了参数高效微调(PEFT)方法,如 LoRA 和 QLoRA,以降低模型微调的内存和计算要求。本文探讨了基于 PEFT 的量化模型(采用分类或回归头)在微调 LLM 方面的功效,LLM 可自动为简短答案和论文分配连续的数字分数,并生成相应的反馈。我们针对任务在专有和开源数据集上进行了实验。结果表明,通过微调 LLM 预测分数的准确度很高,平均分数百分比误差小于 3%。在提供分级反馈方面,经过微调的 4 位量化 LLaMA-2 13B 模型优于具有竞争力的基础模型,在高 BLEU 和 ROUGE 分数方面与主题专家的反馈具有高度相似性,在反馈质量方面也是如此。这项研究的结果为我们提供了重要的启示,让我们了解使用量化方法对 LLM 进行微调的新兴功能对各种下游任务的影响,例如以相对较低的成本和延迟自动生成简短答案评分和反馈。
标题:温度是大型语言模型的创造性参数吗?
author:Max Peeperkorn, Tom Kouwenhoven, Dan Brown, Anna Jordanous
publish:To be published in the Proceedings of the 15th International
Conference on Computational Creativity (ICCC’24), 8 pages, 2 figures, 2
tables
date Time:2024-05-01
paper pdf:http://arxiv.org/pdf/2405.00492v1
摘要:
大语言模型(LLM)被应用于各种创造性任务,其输出结果各不相同,有的优美,有的奇特,有的模仿,有的纯粹是剽窃。大语言模型的温度参数可以调节随机性的大小,从而获得更多样化的输出结果;因此,温度参数常常被认为是创造力参数。在这里,我们使用一个预先设定了固定语境、模型和提示的叙述生成任务来研究这一说法。具体来说,我们利用叙述生成中创造性的四个必要条件:新颖性、典型性、内聚性和连贯性,对不同温度值的 LLM 输出进行了实证分析。我们发现,温度与新颖性呈弱相关,与不连贯也呈中度相关,但与内聚性和典型性都没有关系。然而,温度对创造力的影响远比 "创造力参数 "的说法要细微和微弱得多;总体结果表明,随着温度的升高,LLM 产生的新颖性输出会稍多一些。最后,我们讨论了如何通过改变温度参数来实现更可控的 LLM 创造力,而不是依赖于偶然性。
标题:BiomedRAG:生物医学检索增强大语言模型
author:Mingchen Li, Halil Kilicoglu, Hua Xu, Rui Zhang
date Time:2024-05-01
paper pdf:http://arxiv.org/pdf/2405.00465v3
摘要:
大型语言模型(LLMs)已迅速成为生物医学和医疗保健领域不同应用的重要资源;然而,这些模型遇到了生成不准确信息或幻觉等问题。检索增强生成为这些模型提供了更新知识和提高性能的解决方案。以往的检索增强 LM 利用专门的交叉注意机制帮助 LLM 对检索到的文本进行编码,与之相比,BiomedRAG 采用了一种更简单的方法,即直接将检索到的基于块的文档输入到 LLM 中。这种简单明了的设计很容易适用于现有的检索和语言模型,有效地绕过了检索文档中的噪声信息,尤其是在噪声密集型任务中。此外,我们还展示了在生物医学领域利用 LLM 监督检索模型的潜力,使其能够检索有助于 LM 改进其预测的文档。我们的实验表明,利用经过调整的评分器,textsc{ BiomedRAG} 在 5 项生物医学 NLP 任务(包括信息提取(三重提取、关系提取)、文本分类、链接预测和问题解答)中,利用 9 个以上的数据集取得了优异的性能。例如,在三重提取任务中,textsc{BiomedRAG}在GIT和ChemProt语料库上的micro-F1得分分别为81.42和88.83,优于其他三重提取系统。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。