NLP 论文领读｜缺少有标注的数据集怎么训练文本检索模型？来看看 LaPraDoR怎么做的吧_nlp负向query识别

作者：寸_铁 | 2024-08-20 13:01:28

踩

nlp负向query识别

欢迎来到「NLP 论文领读」专栏！快乐研究，当然从研读 paper 开始——澜舟科技团队注重欢乐的前沿技术探索，希望通过全新专栏和大家共同探索人工智能奥秘、交流 NLP「黑科技」，踩在「巨人」肩上触碰星辰！

本期分享者：澜舟科技研究实习生韦松伟，首都师范大学信息工程学院二年级研究生。三人行，必有我师焉。兴趣广泛，爱好学习，欢迎大家一起探讨交流~

email: weisongwei@interns.chuangxin.com

写在前面

如果你想训练一个文本检索模型，但是缺少有标注的数据集，那不妨来看看这篇论文《LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text Retrieval 》，LaPraDoR 是一个无监督的文本检索模型，不依赖人工标注的数据集，可以在通用领域的大型数据集上进行训练，语义模型的基础上又用传统的 BM25 算法做了增强，在 BEIR 评测集上达到了 SOTA 水平，该论文发表在 ACL 2022 上。

论文链接：https://arxiv.org/abs/2203.06169

Text Retrieval 简单介绍

在介绍 LaPraDoR 之前，我们先来回顾一下文本检索的两个主流模型。目前文本检索（Text Retrieval）主要有两种模型，一种是双塔模型也叫 Dense Retrieval。稠密检索 (Dense Retrieval) 任务旨在通过给定的 query，在一个庞大的 document 语料库中召回与 query 高度相关的 document（document 泛指语料库中的文本内容，可以是句子，段落，文章等），其中 query 和 document 的语义相关性通常建模为 query 和 document 表示向量的点积或余弦相似度。其结构如下图所示：

还有一种是对每一个 query-document 对计算匹配得分，这种方法一般在准确率上有优势但是需要耗费大量的计算时间，一般多用于重排阶段。而双塔模型在 ANN（an approximate nearest neighbor retrieval library，近邻搜索）等这种技术的帮助下速度非常快，如 faiss。

当前训练检索模型都有哪些问题呢？

Dense Retrieval 往往需要大量的人工标注的数据集，而且还有个大问题&

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/寸_铁/article/detail/1007323

NLP 论文领读 ｜ 缺少有标注的数据集怎么训练文本检索模型？来看看 LaPraDoR怎么做的吧_nlp负向query识别

写在前面

Text Retrieval 简单介绍

NLP 论文领读｜缺少有标注的数据集怎么训练文本检索模型？来看看 LaPraDoR怎么做的吧_nlp负向query识别