赞
踩
©PaperWeekly 原创 · 作者|金金
单位|阿里巴巴研究实习生
研究方向|推荐系统
本文由卡耐基梅隆大学发表于 WWW 2020,介绍了基于上下文的文本词项权重生成方法 HDCT。原有的搜索引擎在使用词袋模型表示文本时,性能受限于基于词频(term frequence)的词项权重,HDCT 可以生成基于上下文的词项权重作为优化方案,该研究对 BM25 等初步检索(first stage)模型性能提升具有较大意义。
论文标题:Context-Aware Document Term Weighting for Ad-Hoc Search
论文来源:WWW 2020
论文链接:http://www.paperweekly.site/papers/3972
代码链接:https://github.com/AdeDZY/DeepCT
算法
HDCT 算法首先通过 BERT 模型得到段落级词项权重,然后聚合文本内各段落词项权重,最后使用文本内容信号、相关性信号和伪相关反馈信号作为标签训练模型,模型框架图如下:
图1. HDCT框架图
段落级词项权重
给定文本 ,作者首先将其划分为 个段落
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。