当前位置:   article > 正文

Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models翻译

a survey on hallucination in large language models

摘要

虽然大型语言模型 (LLM) 在一系列下游任务中表现出了卓越的能力,但一个重要的问题是它们表现出幻觉的倾向:LLM 偶尔会生成与用户输入不同的内容、与之前生成的上下文相矛盾或生成与现有世界不一致的知识。这种现象对现实世界中法学硕士的可靠性提出了重大挑战。 在本文中,我们调查了最近在幻觉的检测、解释和缓解方面所做的努力,重点是法学硕士带来的独特挑战。 我们提出了法学硕士幻觉现象的分类法和评估基准,分析了旨在减轻法学硕士幻觉的现有方法,并讨论了未来研究的潜在方向。

1.介绍

在这里插入图片描述
  大型语言模型(LLM)以其巨大的参数量为特征,已成为自然语言处理(NLP)和人工智能发展的有前途的基石。通过适当的对齐技术,例如监督微调(SFT)和来自人类反馈的强化学习(RLHF),最近的LLM在解决各种下游任务方面表现出了强大的能力。
  尽管如此,如图 1 所示,LLM尽管取得了显着的成功,但有时会产生看似合理的输出,但实际上偏离了用户输入、与先前生成的上下文相反或不符合事实知识的内容——这种现象通常被称为幻觉,这极大地破坏了LLM在现实场景中的可靠性。例如,LLM可能会伪造错误的医疗诊断或治疗计划,从而导致现实生活中的切实风险。
  虽然传统自然语言生成(NLG)环境中的幻觉已被广泛研究,但对理解和解决LLM领域内的幻觉问题遇到了独特的挑战:

  1. Massive training data:与为特定任务精心整理数据相比,LLM 预训练使用从网络获取的数万亿个token,因此很难消除捏造的、过时的或有偏见的信息;
  2. Versatility of LLMs:通用LLM被期望能在跨任务、跨语言和跨领域环境中表现出色,这对综合评估和缓解幻觉提出了挑战。
  3. Imperceptibility of errors:作为其强大能力的副产品,LLM可能会产生最初看起来非常可信的虚假信息,这使得模型甚至人类都难以检测幻觉。

此外,RLHF过程、模糊的知识边界和LLM的黑箱特性也使LLM幻觉的检测、解释和缓解变得复杂。致力于解决上述挑战的前沿研究出现了显着的增长,这强烈促使我们编写这项综述。
  我们按如下方式组织本文,如图 2 所示。我们首先介绍LLM的背景,并提供LLM中幻觉的定义(§2)。接下来,我们介绍相关的基准和指标(§3)。随后,我们讨论了LLM幻觉的潜在来源(§4),并对最近解决该问题的工作进行了深入回顾(§5)。最后,我们提出前瞻性观点(§6)。我们会持续更新相关开源资料,可以访问 https://github.com/HillZhang1999/llm-hallucination-survey。
在这里插入图片描述

2.Hallucination in the Era of LLM

我们首先概述了LLM的历史(§2.1)。接下来,我们将 LLM 幻觉分为三个子类别(第 2.2 节)。此外,我们讨论了LLM中幻觉的独特挑战(§2.3),并将幻觉与LLM领域经常遇到的其他普遍问题进行比较(§2.4)。

2.1 Large Language Models

LLM的一个重要类别是自回归语言模型。这些模型以 Transformer 为骨干,根据之前的 token 来预测下一个 token。在 Transformers 广泛采用之前,自回归语言模型是建立在 n-gram 和循环神经网络的基础上的,并已应用于各种 NLG 任务,例如摘要和对话生成。
  基于 Transformer 的LLM在跨任务方面表现出了卓越的性能,因此将 NLP 从以特定任务解决方案为中心的范式转变为通用预训练。使用大规模未标注的语料库,预训练模型针对各种自监督目标进行了优化。随后,使用目标下游任务的标注数据对模型进行微调。预训练模型的表示通常可以减少对标注数据的需求,并在下游任务中实现显着的性能改进。
  除了下游任务的性能改进之外,最近的工作还发现,扩大预训练语言模型(无论是在模型参数数量还是预训练数据量方面)都可以实现一些显着的能力,包括上下文学习、推理和指令跟随 。在某种程度上,NLP社区普及了大型语言模型(LLM)这一术语,以将其与较小的模型区分开来。值得注意的是,LLM展现出准确理解人类指令并在极少甚至无监督的情况下有效处理各种复杂任务的潜力。

2.2 What is LLM Hallucination

在这里插入图片描述
  虽然LLM已经表现出了出色的性能,但在实际应用中仍然不可避免地遇到不同的问题,其中幻觉是其中最重要的问题之一。在 LLM 出现之前,“幻觉”一词已在 NLP 社区中被广泛采用,通常指产生无意义或不忠实于所提供源的内容。
  我们认为,由于LLM的多功能性,该定义似乎已大大扩展。为此,我们将LLM背景下的幻觉分类如下:

  • 输入冲突幻觉,LLM生成的内容偏离用户提供的源输入;
  • 上下文冲突幻觉,LLM生成的内容与之前生成的信息相冲突;
  • 与事实相冲突的幻觉,LLM生成的内容不忠实于既定的世界知识。

我们在表 1 中提供了每种幻觉的示例,并在下面详细讨论。
  Input-conflicting hallucination。当LLM生成的内容偏离用户输入时,就会出现这种类型的幻觉。通常,LLM的用户输入包括两个部分:任务指令(例如,生成摘要的用户提示)和任务输入(例如,要生成摘要的文档)。LLM 响应和任务指令之间的矛盾通常反映了对用户意图的误解。相比之下,当生成的内容与任务输入之间出现矛盾时,幻觉符合特定NLG任务中的常规定义,例如机器翻译和摘要。例如,表1 中的第一个示例似乎突出了生成的内容和任务输入之间的矛盾:当用户请求 LLM 生成摘要时,LLM 错误地替换了其响应中的人名(Hill→Lucas),即使 一般形式确实可以被视为合适的总结
  Context-conflicting hallucination。LLM在生成冗长或多轮响应时可能会表现出自相矛盾。当LLM无法跟踪上下文或无法在整个对话中保持一致性时,就会出现这种类型的幻觉,这可能是由于他们在维持长期记忆或识别相关上下文方面的局限性。表 1 中的第二个示例演示了用户请求介绍 NBA 专员从而导致上下文冲突的幻觉。具体来说,LLM最初引入了Silver(现任NBA总裁),但后来又提到了Stern(前NBA总裁),这表明生成缺乏一致性。
  Fact-conflicting hallucination。当LLM产生与既定世界知识相矛盾的信息或文本时,就会发生这种类型的幻觉。与事实相冲突的幻觉的来源可能是多种多样的,并且可能是在 LLM 生命周期的不同阶段引入的,如图 2 所示。我们在表 1 中提供了一个说明(第三个示例):在这种情况下,用户向 LLM 询问有关 Afonos II的母亲。LLM给出了错误的答案(Queen Urraca of Castile instead of Dulce Berenguer of Barcelone),这很容易误导缺乏这方面知识的用户。
  尽管其他两种类型也很重要,但LLM最近的幻觉研究重点主要是事实冲突类幻觉。可能的原因包括但不限于:(1)输入和上下文冲突的幻觉已在传统 NLG 环境中进行了广泛研究。然而,由于缺乏权威的知识来源作为参考,事实冲突的幻觉给LLM带来了更复杂的挑战; (2)事实冲突的幻觉往往会对LLM的实际应用产生更多的副作用,导致最近的研究更加重视。鉴于这一研究现状,我们论文的以下部分将主要集中于与事实相冲突的幻觉,在讨论其他两种幻觉时我们将明确强调它们。

2.3 Unique Challenge in the Era of LLM

尽管幻觉问题在传统的 NLG 任务中得到了广泛的研究,但LLM中的幻觉带来了一系列独特且复杂的挑战,这些挑战源于训练过程和使用场景。
  Massive training data。与在有限规模数据集上训练的特定任务 NLG 模型不同,LLM 是在数万亿个token上进行预训练的。这些预训练语料库是从网络上自动收集的,通常包含大量捏造的、过时的或有偏见的信息。这种不充分的数据可能会导致LLM产生幻觉内容。较大的数据规模也可能增加应用以数据为中心的方法来减轻LLM幻觉的难度。
  Versatility of LLMs。传统的 NLG 模型通常是为单一任务设计的,因此,对它们的幻觉研究通常是针对特定任务的;然而,目前的LLM期望在多任务、多语言和多领域环境中表现出色。这种期望给LLM幻觉的评估和缓解带来了棘手的挑战。在评估方面,LLM更常用于自由格式的文本生成,并且在这种情况下缺乏确定性参考使幻觉的自动检测变得复杂。因此,建立一个全面、可靠、自动的评估基准至关重要。在缓解方面,所提出的方法应该是鲁棒有效的,在应用于各种场景时保持良好的性能。
  Invisibility of errors。与传统的 NLG 模型相比,LLM 的写作能力显着增强,知识存储量更大。因此,LLM幻觉的虚假信息往往显得非常可信,甚至连人类也感觉难以察觉。这加大了检测和减少输入和上下文冲突幻觉的难度,因为我们不能再诉诸简单的表面模式。对于不符合事实的幻觉,我们还需要考虑利用更多的知识来源进行验证。这些因素共同带来了巨大的新挑战。

2.4 Other Problems in LLMs

在这里插入图片描述
  除了幻觉之外,LLM还存在其他问题。我们在下面概述了一些常见问题,并在表 2 中提供了示例,以帮助读者区分它们和幻觉。
  Ambiguity。当LLM的回答含糊不清时,就会出现这种类型的问题,导致多种解释。该响应不一定是错误的,但它无法为用户问题提供有用的答案。表 2 中的第一个示例说明了这个问题。理想的答案是“Paris”,但LLM给出的答案模棱两可。
  Incompleteness。当生成的响应不完整或碎片时,就会出现不完整性问题。如表 2 中的第二个示例所示,LLM仅告知用户更换轮胎的四步流程中的前两个步骤,导致解释不完整。
  Bias。LLM中的偏见与生成文本中的不公平或偏见态度的表现有关。这些偏差可能源自训练数据,这些数据通常包含历史文本、文学、社交媒体内容和其他来源。这些来源可能本质上反映了社会偏见、性别偏见、刻板印象或歧视性信仰。如表2中的第三个例子所示,LLM将教师描绘成女性,这是一种性别偏见。
  Under-informativeness。此类问题是指LLM倾向于逃避回答某些问题或提供特定信息,即使他们应该有能力这样做。例如,由于奖赏模型的不完善,RLHF 可能会导致 LLM 的过度优化,从而可能导致信息不足的状态。表 2 中提供了一个这样的示例,其中LLM拒绝响应用户查询。

3.Evaluation of LLM Hallucination

3.1 Evaluation Benchmarks

4.Sources of LLM Hallucination

5.Mitigation of LLM Hallucination

在本节中,我们对近期有关减轻LLM幻觉的研究进行了广泛的回顾。为了使结构清晰,我们根据 LLM 生命周期内的顺序对现有的缓解工作进行分类。

5.1 Mitigation during Pre-training

在这里插入图片描述
  现有的工作认为,LLM的知识主要是在预训练阶段获得的。预训练语料库中存在的噪声数据(例如错误信息)可能会破坏LLM的参数知识,这是导致幻觉的一个重要因素,如前面第 4 节中所讨论的。Akyürek
et al. (2022) 还证明,可以将语言模型获得的事实知识追溯到其训练数据。因此,减轻幻觉的直观方法可能涉及手动或自动整理预训练语料库,以尽可能减少无法验证或不可靠的数据。
  在LLM时代之前,存在一系列致力于人工消除噪声训练数据以减轻幻觉的努力。例如,Gardent et al. (2017) 专注于data-to-text任务,并招募人类标注者根据给定的知识库手动撰写干净且准确的响应。事实证明,这种精心设计的训练数据可以有效减少幻觉。同样,Wang(2019)手动精炼现有table-to-text数据集中的文本,并观察到这个过程也大大减轻了事实幻觉。此外,Parikh et al. (2020) 要求标注者在构建table-to-text训练数据时修改维基百科中经过验证的句子,而不是直接创建新句子。这种方法也被证明可以提高结果的真实性。
  随着 LLM 时代的到来,由于预训练语料库规模庞大(如表 6 所示),在预训练期间整理训练数据变得越来越具有挑战性。例如,Llama 2 对大约 2 万亿个token进行了预训练。因此,与手动设计相比,目前更实用的方法可能是自动选择可靠的数据或过滤掉噪声数据。例如,GPT-3的预训练数据利用与一系列高质量参考语料库的相似性进行清理。Falcon 的开发人员通过启发式规则仔细地从网络中提取高质量的数据,并证明正确管理的相关语料库可以带来强大的LLM。Li et al. (2023f) 提出 phi-1.5,一个 13 亿参数的LLM,在过滤后的“教科书式”合成数据上进行预训练,它展现了更大的LLM的许多特征。为了减轻幻觉,目前的LLM倾向于从可靠的文本来源收集预训练数据。Llama 2 的开发人员在构建预训练语料库时,策略性地从高度真实的来源(例如维基百科)对数据进行上采样。Lee et al. (2022) 提出在事实文档中的句子前面添加主题前缀,使每个句子在预训练期间充当独立的事实。具体来说,他们将文档名称视为主题前缀,并观察到这种方法提高了 LM 在 TruthfulQA 上的性能。
  Summary & Discussion。预训练期间幻觉的缓解主要集中在预训练语料库的管理上。考虑到现有预训练语料库的规模庞大,当前的研究主要采用简单的启发式规则进行数据选择和过滤。一个潜在的探索途径可能是设计更有效的选择或过滤策略。

5.2 Mitigation during SFT

在这里插入图片描述
  作为一种常见的做法,当前的 LLM 都经历称为有监督微调(SFT)的过程,以激活从预训练中获得的知识并学习如何与用户交互。SFT 通常涉及首先标注或收集大量任务指令遵循数据,然后使用最大似然估计 (MLE) 在此数据上微调预训练的基础 LLM。通过采用精心设计的 SFT 策略,许多最近的研究声称已经建立了能够达到与 ChatGPT 相当性能的LLM。
  与预训练类似,在 SFT 阶段减少幻觉的一种潜在方法是整理训练数据。考虑到 SFT 数据量相对较小(请参阅表 7),手动和自动设计都是可行的选择。Zhou et al. (2023a) 精心构建了一个指令调优数据集,其中包含由人类专家标注的 1,000 个样本。其他一些研究通过利用LLM作为评估器或设计特定规则,自动选择高质量的指令微调数据。与幻觉相关的基准(例如 TruthfulQA)的实验结果表明,与根据未经设计的数据进行微调的LLM相比,根据此类设计的指令数据进行微调的LLM表现出更高水平的真实性和事实性。此外,Mohamed et al. (2023) 提出将特定领域的知识集集成到 SFT 数据中,旨在减少因缺乏相关知识而产生的幻觉。
  值得注意的是,Schulman (2023) 强调了 SFT 过程的潜在风险,即它可能会因行为克隆而诱发LLM产生幻觉。行为克隆是强化学习中的一个概念,这意味着模型直接通过模仿专家的行为来学习。这里的问题是,这种方法只是模仿行为,而没有学习实现最终目标的策略。LLM的 SFT 过程可以被视为行为克隆的特例,LLM通过模仿人类来学习交互的格式和风格。至于LLM,尽管已经将大量知识编码到他们的参数中,但仍然存在超出他们能力的知识。通过在 SFT 期间克隆人类行为,LLM学会以积极的语气回答所有问题,而不评估这些问题是否超出了他们的知识边界(见图 3)。因此,在推理过程中,如果提示回答与未学过的知识相关的问题,他们很可能会自信地产生幻觉。缓解这个问题的一种方法是honesty-oriented的SFT,这意味着在SFT数据中引入一些诚实的样本。诚实的样本是指承认自己无能的回答,例如“对不起,我不知道”。Moss 项目开源了他们的 SFT 数据,其中包括此类诚实的样本。我们观察到,经过调整的模型可以学会拒绝回答特定问题,从而有助于减少幻觉。
  Summary & Discussion。整理训练数据是减轻 SFT 阶段幻觉的一种方法。由于 SFT 数据量可接受,它们可以由人类专家手动设计。最近,我们进行了初步的人工检查,发现一些广泛使用的合成 SFT 数据(例如 Alpaca)由于缺乏人工检查而包含大量幻觉答案。当研究人员尝试构建基于self-instruct的 SFT 数据集时,需要特别注意。
  之前的研究还指出,SFT 过程可能会迫使LLM回答超出其知识边界的问题,从而无意中引入幻觉。一些研究人员提出honesty-oriented的 SFT 作为解决方案。然而,我们认为这种方法有两个主要问题。首先,它对分布外(OOD)情况的泛化能力有限。其次,标注的诚实样本只是反映了标注者的无知和不确定性,而不是LLM的无知和不确定性,因为标注者不知道LLM的真正知识边界。这些挑战使得在 SFT 期间解决这个问题不是最优的。
在这里插入图片描述

5.3 Mitigation during RLHF

在这里插入图片描述
  如今,许多研究人员试图通过人类反馈强化学习(RLHF)进一步改进有监督微调的LLM。这个过程由两个步骤组成:1)训练奖励模型(RW)作为人类偏好的agent,旨在为每个LLM响应分配适当的奖赏值; 2)通过使用RL算法(例如PPO),根据奖赏模型的反馈优化SFT模型。
  利用人类反馈不仅可以缩小机器生成的内容与人类偏好之间的差距,还可以帮助LLM生成所需的标准或目标。如今,一个常用的标准是“3H”,即helpful、honest和harmless。这里诚实的方面只是指最大限度地减少LLM回答中的幻觉。目前先进的LLM,如InstructGPT、ChatGPT、GPT4和Llama2-Chat,在RLHF期间都集体考虑了这方面的问题。例如,GPT4 使用合成的幻觉数据来训练奖赏模型并执行 RL,这将 TruthfulQA 的准确性从约 30% 提高到 60%。此外,Lightman et al. (2023) 使用过程监督来检测和减轻推理任务的幻觉,这为每个中间推理步骤提供反馈。
  正如上一节所讨论的,SFT 阶段的行为克隆现象可能会导致幻觉。一些研究人员试图通过将诚实样本集成到原始 SFT 数据中来解决这个问题。然而,这种方法存在一定的局限性,例如OOD泛化能力不理想以及人类和LLM知识边界之间的错位。鉴于此,Schulman (2023) 提出在 RLHF 期间解决这个问题。他们专门为了减轻幻觉而设计了一个特殊的奖赏函数,如表8所示。这里的“Unhedged/Hedged Correct/Wrong”是指LLM以肯定或犹豫的语气提供正确或错误的答案。“Uninformative”表示诸如“我不知道”之类的安全答案。其核心理念是鼓励LLM通过从专门设计的奖赏中学习来挑战前提、表达不确定性并承认无知。这种方法,我们称之为 honesty-oriented 的 RL,与 honesty-oriented 的 SFT 相比具有多种优势。主要好处是它允许LLM自由探索他们的知识边界,从而增强他们对 OOD 案例的泛化能力。此外,它减少了对大量人工标注的需求,并消除了标注者猜测LLM知识边界的要求。
  Summary & Discussion。强化学习可以引导LLM探索他们的知识边界,使他们能够拒绝回答超出他们能力范围的问题,而不是编造不真实的回答。然而,我们注意到这种方法也带来了独特的挑战。例如,由于helpfulness和honesty之间的权衡不平衡,经过强化学习调整的LLM可能会表现出过度保守主义。表 9 中展示了一个这样的例子。正如在本例中所观察到的,ChatGPT 往往会过度对冲,并且不会提供它已经知道的明确答案,这一点在另一个对话回合中得到了证明。这可能是由于奖赏函数设计不合理或者奖赏模型的训练数据质量差造成的。我们希望今后的工作能够考虑到这些问题。

5.4 Mitigation during Inference

与上述训练时缓解方法相比,在推理时缓解幻觉可能更具成本效益且可控。因此,现有的研究大多集中在这个方向,我们将在下面的章节中详细介绍。

5.4.1 Designing Decoding Strategies

解码策略,例如贪心解码和集束搜索解码,决定了我们如何从模型生成的概率分布中选择输出token。
  Lee et al. (2022) 对LLM使用不同解码策略生成的内容进行事实性评估。他们发现核采样(又名 top-p 采样)在事实性方面达不到贪心解码的要求。他们认为,这种表现不佳可能是由于 top-p 抽样为了提高多样性而引入的随机性,这可能会无意中导致幻觉,因为LLM倾向于捏造信息来产生不同的响应。鉴于此,他们引入了一种称为事实核采样的解码算法,旨在通过利用top-p和贪心解码的优势,在多样性和事实性之间取得更有效的平衡。
  Dhuliawala et al. (2023) 提出了一种称为验证链 (COVE) 的解码框架。该框架基于这样的观察:独立验证问题通常会比长篇答案中提供的事实产生更准确的事实。COVE 框架最初计划验证问题,然后回答这些问题,最终产生增强的、修订的响应。在基于列表的问题、closed book QA 和长文本生成的实验结果表明,COVE 可以有效减轻幻觉。
  另一项工作,Li et al. (2023b) 引入了一种新的Inference-Time Intervention (ITI) 方法来提高LLM的真实性。该方法基于这样的假设:LLM拥有与事实相关的潜在的、可解释的子结构。ITI 方法包括两个步骤:1)在 LLM 的每个注意力头之上安装二分类器,以识别出一组在回答事实问题时能表现出卓越精度的注意力头,以及 2)沿着这些事实相关的方向移动模型激活推理过程中的方向。ITI 方法可显着提高 TruthfulQA 基准的性能。
  与上述研究不同,Shi et al. (2023b) 则相反,其专注于检索增强设置。先前的研究表明,LLM在处理下游任务时有时无法充分关注检索到的知识,特别是当检索到的知识与LLM的参数知识发生冲突时。为了解决这个问题,Shi et al. (2023b) 提出了一种简单的上下文感知解码(CAD)策略。CAD 的核心思想是执行 p θ ( y t ∣ x , c , y < t ) p_θ(y_t| x, c, y_{<t}) pθ(ytx,c,y<t) p θ ( y t ∣ x , y < t ) p_θ(y_t| x, y_{<t}) pθ(ytx,y<t) 的对比ensemble,其中 θ θ θ 表示 LM, x x x是输入问题, c c c是 上下文, y y y是响应, t t t是时间步长。 p θ ( y t ∣ x , c , y < t ) p_θ(y_t| x, c, y_{<t}) pθ(ytx,c,y<t) 表示给定上下文时第 t t t 个token的生成概率分布,而 p θ ( y t ∣ x , y < t ) p_θ(y_t|x, y_{<t}) pθ(ytx,y<t) 表示仅考虑问题的分布。CAD方法旨在迫使LLM更多地关注上下文信息,而不是过度依赖自己的参数知识来做出决策。实验结果表明,CAD 有效地激发了LLM利用检索到的知识的能力,从而减少了对下游任务的事实幻觉。另一项工作DoLA也采用了对比解码的想法来减少幻觉。然而,他们对比了LLM不同层的生成概率,因为他们发现语言和事实信息被编码在不同的层组中。
  Summary & Discussion。设计解码策略以减轻LLM在推理过程中的幻觉通常是以即插即用的方式进行的。因此,该方法易于部署,具有实际应用前景。然而,对于这种方法,大多数现有工作需要访问token级输出概率,而当前大量的 LLM 只能通过有限的 API(例如 ChatGPT)返回生成的内容。因此,我们鼓励未来在这个方向上的研究在更严格的黑盒环境中进行探索。

5.4.2 Resorting to External Knowledge

5.4.3 Exploiting Uncertainty

6. Other Methods

Multi-agent interaction
  Analyzing LLMs’ internal states
  Human-in-the-loop
  Optimizing model architecture

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/煮酒与君饮/article/detail/912185
推荐阅读
相关标签
  

闽ICP备14008679号