论文 | DEMONSTRATE–SEARCH–PREDICT: Composing retrieval and language models for knowledge-intensive NLP_demonstrate-search-predict: composing retrieval an

作者：我家自动化 | 2024-07-29 17:19:52

踩

demonstrate-search-predict: composing retrieval and language models for know

论文摘要

这篇论文提出了 DSP (DEMONSTRATE–SEARCH–PREDICT) 框架，用于在知识密集型 NLP 任务中，将检索模型 (RM) 和语言模型 (LM) 进行有效结合。DSP 框架通过在 LM 和 RM 之间传递自然语言文本，实现更复杂的交互，从而更好地利用两者的优势。DSP 框架使用一系列可组合的函数，用于实现演示、检索和预测三个阶段的任务，并通过弱监督学习的方法自动标注演示数据，从而降低标注成本。实验结果表明，DSP 框架在开放域问答、多跳问答和对话问答等任务上取得了优于传统方法的性能。

DSP 框架主要针对以下问题进行优化和改进：

1、知识密集型任务：

问题：知识密集型 NLP 任务 (例如问答、事实核查、信息检索等) 通常需要大量的知识，而预训练语言模型 (LM) 中的知识往往是不完整和不可靠的。

改进：DSP 框架通过引入检索模型 (RM)，可以有效地利用外部知识库中的知识，从而提高 LM 在知识密集型任务上的性能。

2、中间步骤标注：

问题：在传统的 NLP 任务中，中间步骤 (例如多跳问答中的各个查询) 通常需要人工标注，这需要大量的时间和精力。

改进：DSP 框架使用弱监督学习的方法，可以自动标注中间步骤，从而降低标注成本，提高标注效率。

3、模型泛化能力：

问题：预训练语言模型 (LM) 的泛化能力有限，难以适应新的任务和数据集。

改进：DSP 框架通过使用零样本学习和可组合的函数，可以增强模型的泛化能力，使其能够适应不同的任务和数据集。

4、模型可解释性：

问题：预训练语言模型 (LM) 的预测结果往往缺乏可解释性，难以理解模型是如何得出预测结果的。

改进：DSP 框架通过检索到的段落作为证据，可以解释模型的预测结果，从而提高模型的可解释性。

主要贡献：

提出DSP架构，该架构用于上下文学习，完全依赖于在冻结的检索模型和语言模型之间做交互（传递自然语言文本或者分数）。此外，DSP还引入了一系列可组合的功能，用于实现演示、检索和预测三个阶段的任务。
使用弱监督学习的方法，自动标注演示数据，降低标注成本。
在开放域问答、多跳问答和对话问答等任务上取得了优于传统方法的性能。