赞
踩
大型语言模型(LLM)由于其卓越的语言生成能力和极强的泛化能力而受到学术界和工业界的极大关注。然而,当前的LLM仍然会输出不可靠的内容,由于其固有的问题(例如,幻觉)。为了更好地解开这个问题,在本文中,我们进行了深入的调查,系统地探讨LLM在逻辑推理的能力。更详细地说,我们首先调查LLM在逻辑推理的不同任务上的缺陷,包括事件关系提取和演绎推理。我们的研究表明,LLM在解决具有严格推理的任务时表现不佳,甚至会产生反事实的答案,这需要我们迭代地改进。因此,我们全面探索不同的策略,赋予LLM逻辑推理能力,从而使他们能够在不同的场景中生成逻辑上更一致的答案。基于我们的方法,我们还贡献了一个综合数据集(LLM-LR),涉及多跳推理的评估和预训练。通过对不同任务的大量定量和定性分析,验证了逻辑教学的有效性和必要性,为今后运用逻辑教学解决实际任务提供了借鉴。
最近,大型语言模型(LLM)在许多不同的下游任务中取得了令人难以置信的进展,如GPT-3、ChatGPT和Llama。这些模型通常在过滤的网络数据和精选的高质量语料库(例如,社交媒体对话、书籍或技术出版物)的组合上进行培训。研究表明,LLM的涌现能力可以显示出很有前途的推理能力,而精选过程对于产生它们的零概率泛化能力是必要的。
尽管取得了这些显著的成就,但目前的LLM在流畅和可靠地生成高质量内容方面仍然存在一些问题。一个好的内容生成器应该产生逻辑上一致的答案,这些答案对于给定或先前的约束是合理的。然而,在处理需要严格逻辑推理的实际任务时,LLM有时会输出反事实。如图1所示,ChatGPT预测事件“FIRE”和“collapsed”之间的时间和因果关系是“simultaneous”和“cause”。根据先前的逻辑约束,即使在阅读上下文之前,我们也可以很容易地断言预测并不完全正确,因为在语义方面,“simultaneous”和“cause”相互冲突。一些著作将这些现象归因于其固有的缺陷(如幻觉、不忠),然而,如何理清并提高LLMS在这些任务中的能力仍然是一个悬而未决的问题。
为了深入了解LLMS在逻辑推理方面的不足并探索相应的解决方案,本文从多个维度对LLMS在解决推理任务方面进行了深入的研究。我们首先在两个实际场景中对LLMS的性能进行了评估,包括事件关系提取和演绎推理任务,两者都需要严格的推理能力来推断。
我们的实验结果表明:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。