WWW 2020 | 信息检索中基于上下文的文本词项权重生成

作者：盐析白兔 | 2024-04-19 10:07:22

踩

通过上下文算句子中词的权重

©PaperWeekly 原创 · 作者｜金金

单位｜阿里巴巴研究实习生

研究方向｜推荐系统

本文由卡耐基梅隆大学发表于 WWW 2020，介绍了基于上下文的文本词项权重生成方法 HDCT。原有的搜索引擎在使用词袋模型表示文本时，性能受限于基于词频（term frequence）的词项权重，HDCT 可以生成基于上下文的词项权重作为优化方案，该研究对 BM25 等初步检索（first stage）模型性能提升具有较大意义。

论文标题：Context-Aware Document Term Weighting for Ad-Hoc Search

论文来源：WWW 2020

论文链接：http://www.paperweekly.site/papers/3972

代码链接：https://github.com/AdeDZY/DeepCT

算法

HDCT 算法首先通过 BERT 模型得到段落级词项权重，然后聚合文本内各段落词项权重，最后使用文本内容信号、相关性信号和伪相关反馈信号作为标签训练模型，模型框架图如下：

图1. HDCT框架图

段落级词项权重

给定文本，作者首先将其划分为个段落

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/盐析白兔/article/detail/451179