当前位置:   article > 正文

WWW 2020 | 信息检索中基于上下文的文本词项权重生成

通过上下文算句子中词的权重

©PaperWeekly 原创 · 作者|金金

单位|阿里巴巴研究实习生

研究方向|推荐系统

本文由卡耐基梅隆大学发表于 WWW 2020,介绍了基于上下文的文本词项权重生成方法 HDCT。原有的搜索引擎在使用词袋模型表示文本时,性能受限于基于词频(term frequence)的词项权重,HDCT 可以生成基于上下文的词项权重作为优化方案,该研究对 BM25 等初步检索(first stage)模型性能提升具有较大意义。


论文标题:Context-Aware Document Term Weighting for Ad-Hoc Search

论文来源:WWW 2020

论文链接:http://www.paperweekly.site/papers/3972

代码链接:https://github.com/AdeDZY/DeepCT

算法

HDCT 算法首先通过 BERT 模型得到段落级词项权重,然后聚合文本内各段落词项权重,最后使用文本内容信号、相关性信号和伪相关反馈信号作为标签训练模型,模型框架图如下:

图1. HDCT框架图

段落级词项权重

给定文本 ,作者首先将其划分为 个段落

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/451179
推荐阅读
相关标签
  

闽ICP备14008679号