当前位置:   article > 正文

学习教授LLM逻辑推理11.19_数理逻辑与llm

数理逻辑与llm

在这里插入图片描述

摘要

大型语言模型(LLM)由于其卓越的语言生成能力和极强的泛化能力而受到学术界和工业界的极大关注。然而,当前的LLM仍然会输出不可靠的内容,由于其固有的问题(例如,幻觉)。为了更好地解开这个问题,在本文中,我们进行了深入的调查,系统地探讨LLM在逻辑推理的能力。更详细地说,我们首先调查LLM在逻辑推理的不同任务上的缺陷,包括事件关系提取和演绎推理。我们的研究表明,LLM在解决具有严格推理的任务时表现不佳,甚至会产生反事实的答案,这需要我们迭代地改进。因此,我们全面探索不同的策略,赋予LLM逻辑推理能力,从而使他们能够在不同的场景中生成逻辑上更一致的答案。基于我们的方法,我们还贡献了一个综合数据集(LLM-LR),涉及多跳推理的评估和预训练。通过对不同任务的大量定量和定性分析,验证了逻辑教学的有效性和必要性,为今后运用逻辑教学解决实际任务提供了借鉴。

1 引言

最近,大型语言模型(LLM)在许多不同的下游任务中取得了令人难以置信的进展,如GPT-3、ChatGPT和Llama。这些模型通常在过滤的网络数据和精选的高质量语料库(例如,社交媒体对话、书籍或技术出版物)的组合上进行培训。研究表明,LLM的涌现能力可以显示出很有前途的推理能力,而精选过程对于产生它们的零概率泛化能力是必要的。

尽管取得了这些显著的成就,但目前的LLM在流畅和可靠地生成高质量内容方面仍然存在一些问题。一个好的内容生成器应该产生逻辑上一致的答案,这些答案对于给定或先前的约束是合理的。然而,在处理需要严格逻辑推理的实际任务时,LLM有时会输出反事实。如图1所示,ChatGPT预测事件“FIRE”和“collapsed”之间的时间和因果关系是“simultaneous”和“cause”。根据先前的逻辑约束,即使在阅读上下文之前,我们也可以很容易地断言预测并不完全正确,因为在语义方面,“simultaneous”和“cause”相互冲突。一些著作将这些现象归因于其固有的缺陷(如幻觉、不忠),然而,如何理清并提高LLMS在这些任务中的能力仍然是一个悬而未决的问题。
在这里插入图片描述
为了深入了解LLMS在逻辑推理方面的不足并探索相应的解决方案,本文从多个维度对LLMS在解决推理任务方面进行了深入的研究。我们首先在两个实际场景中对LLMS的性能进行了评估,包括事件关系提取和演绎推理任务,两者都需要严格的推理能力来推断。
我们的实验结果表明:
在这里插入图片描述

  • 1)即使是最先进的LLM仍然会产生大量不一致的答案,例如,如图2所示,在MAVEN-ERE 数据集上来自ChatGPT的超过60%的答案在逻辑上是不一致的;
  • 2)思想链(CoT)提示,如“让我们一步一步思考”可以刺激LLM的推理能力。然而,一些固有的问题(例如,幻觉、不忠实)将导致这种生成的基本原理不可靠或不一致;
  • 3)向LLM提供相关逻辑提高了性能,但是注入不相关逻辑会引起结果的波动。因此,如何获得相关逻辑并将其信息注入LLM是一个重要的问题,值得进一步探索;
  • 4)为了验证LLM用于
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/200168
推荐阅读
相关标签
  

闽ICP备14008679号