赞
踩
(A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models)
文本检索任务的基准,使用18 个数据集
为检索系统的零样本评估提出了一个标准化基准, BEIR 基准上在9个不同领域的检索任务
评估 10 种不同的检索方法
。
九个
不同领域的检索任务
,如下:五大架构
如下:十种不同的检索方法
,如下:1、发现没有任何一种方法在所有的数据集上都能持续胜过其他方法。
2、一个模型的领域内性能与它的泛化能力并不相关:用相同的训练数据进行微调的模型可能会有不同的泛化能力。
3、发现性能和计算成本之间的权衡:计算成本高的模型,如重排模型和后期交互模型表现最好。更有效的方法,如基于密集或稀疏嵌入的方法,可以大大低于传统的词汇模型,如BM25的表现。
4、未来的工作需要更好的无偏见的数据集,允许对所有类型的检索系统进行公平的比较。
BEIR: A Heterogeneous Benchmark for Zero-shot
Evaluation of Information Retrieval Models
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。