当前位置:   article > 正文

NLP 论文领读 | 缺少有标注的数据集怎么训练文本检索模型?来看看 LaPraDoR怎么做的吧_nlp负向query识别

nlp负向query识别

欢迎来到「NLP 论文领读」专栏!快乐研究,当然从研读 paper 开始——澜舟科技团队注重欢乐的前沿技术探索,希望通过全新专栏和大家共同探索人工智能奥秘、交流 NLP「黑科技」,踩在「巨人」肩上触碰星辰!

本期分享者:澜舟科技研究实习生韦松伟,首都师范大学信息工程学院二年级研究生。三人行,必有我师焉。兴趣广泛,爱好学习,欢迎大家一起探讨交流~

email: weisongwei@interns.chuangxin.com  

写在前面

如果你想训练一个文本检索模型,但是缺少有标注的数据集,那不妨来看看这篇论文《LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text Retrieval 》,LaPraDoR 是一个无监督的文本检索模型,不依赖人工标注的数据集,可以在通用领域的大型数据集上进行训练,语义模型的基础上又用传统的 BM25 算法做了增强,在 BEIR 评测集上达到了 SOTA 水平,该论文发表在 ACL 2022 上。

论文链接:https://arxiv.org/abs/2203.06169

Text Retrieval 简单介绍

在介绍 LaPraDoR 之前,我们先来回顾一下文本检索的两个主流模型。目前文本检索(Text Retrieval)主要有两种模型,一种是双塔模型也叫 Dense Retrieval。稠密检索 (Dense Retrieval) 任务旨在通过给定的 query,在一个庞大的 document 语料库中召回与 query 高度相关的 document(document 泛指语料库中的文本内容,可以是句子,段落,文章等),其中 query 和 document 的语义相关性通常建模为 query 和 document 表示向量的点积或余弦相似度。其结构如下图所示:

还有一种是 对每一个 query-document 对计算匹配得分,这种方法一般在准确率上有优势但是需要耗费大量的计算时间,一般多用于重排阶段。而双塔模型在 ANN(an approximate nearest neighbor retrieval library,近邻搜索)等这种技术的帮助下速度非常快,如 faiss。

当前训练检索模型都有哪些问题呢?

Dense Retrieval 往往需要大量的人工标注的数据集,而且还有个大问题&

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/寸_铁/article/detail/1007323
推荐阅读
相关标签
  

闽ICP备14008679号