赞
踩
Neural Ranking Models
排序模型:
神经网络
以前的LTR模型:
稀疏表示/表示学习方法
深度-密集表示(2013-)
框架:LTR
假设:同质假设
任务:CQA/AC
代表:
DSSM [13], CLSM [47] and LSTMRNN [48]
DSSM:两个一样的处理
CLSM [47]
LSTM-RNN [48]:
DeepMatch [14], Arc-II [17], MatchPyramid [18] and Match-SRNN [69]
Arc-II [17]:
MatchPyramid:
PACRR [24]
query和doc:异质
如果互换,则输出完全不同
任务:ad-hoc/QA
假设:query:基于关键字
DRMM[21]
KNRM[85]
假设:长文本的部分与query相关
HiNT [34]
假设:
DeepRank [33]
利用问题表示来获得对候选答案词的关注,以增强答案表示
IARNN [86]
CompAgg [87]
假设:相关性取决于输入文本的组成含义( compositional meaning)
表示函数:ffn,cnn,rnn…
交互函数:无
得分函数:g(cos,mlp,…)
MLP:DSSM
CNN:
RNN:
LSTM-RNN [48] and MV-LSTM [88]
模型:
Arc-I [17],
CNTN:
LSTM-RNN:
MVLSTM
通过基于每个输入文本的高级表示来评估相关性,以表示为中心的架构更好地适合于全局匹配需求[21]。
任务:CQA/AC
适用于:在线
假设:相关性在本质上是输入文本之间的关系,所以从交互中学习更高效
non-parametric interaction functions and parametric interaction functions
这种架构可以更好地适合需要特定匹配模式(例如,精确的单词匹配)和不同匹配需求[21],
适合异质任务
适合离线,不适合在线
优点:
反应输入之间的距离或者接近程度
输入:每一对word vectors
binary indicator function [18, 33], cosine similarity function [18, 61, 33],
dot-product function [18, 33, 34] and radial-basis function [18]
其他:
. the
matching histogram mapping in DRMM [21] and the kernel pooling layer
in K-NRM [85].
Arc-II [17]
1D convolutional layer for the interaction bwteen two phrases.
Match-SRNN [69]
混合表示和交互
较为松散
将基于表示的和基于交互的输出结合在一起
DUET [23]
IARNN [86] and CompAgg [87],
依据相关性估计过程的不同假设划分
假设:基于φ,ψ和η从单格式文本输入中提取的高层特征来评估相关性
φ,ψ和η:两个表示函数,一个交互函数
输入:words 或 word embeddings
eg:DSSM、MatchPyramid、DRMM、HiNT、ARC-I、MV-LSTM、K-NRM、Match-SRNN等。
假设:相关性估计需要多粒度的特征
划分
任务:
优点:
缺点:效率低,达不到全局最小。
一般而言,按点排序目标在排序任务中被认为效率较低。因为逐点损失函数不考虑文档偏好或排序信息,因此它们不能保证在模型损失达到全局最小值时可以生成最佳的排序列表。
hinge loss:
交叉熵:
优点:有效,最优结果列表
理想情况下,当成对排序损失最小化时,文档之间的所有偏好关系都应该得到满足,并且模型将为每个查询生成最优结果列表。这使 pairwise ranking objectives 在根据相关文档的排序来评估性能的许多任务中有效。
缺点:然而,在实践中,由于以下两个原因,在 pairwise 方法中优化文档偏好并不总是导致最终ranking metrics 的改进:
loss:ListMLE、Attention Rank function
优点
缺点:成本高:虽然列表排序目标通常比成对排序目标更有效,但其高昂的计算成本往往限制了它们的应用。
在 ad-hoc retrieval 任务上的比较
① 概率模型(即QL和BM25)虽然简单,但已经可以达到相当好的性能。具有人为设计特征的传统PRF模型(RM3)和LTR模型(RankSVM和LambdaMart)是强基线,其性能是大多数基于原始文本的神经排序模型难以比拟的。然而,PRF技术也可以用来增强神经排序模型,而人类设计的LRT特征可以集成到神经排序模型中以提高排序性能。
② 随着时间的推移,该任务中的 neural ranking model architecture 似乎从对称到不对称,从以表示为中心到以交互为中心的范式发生转变。的确,不对称和以交互为中心的结构可能更适合表现出异构性的ad-hoc检索任务。
③ 在不同数量的查询和标签方面具有更大的数据量的神经模型更有可能获得更大的性能改进。(与非神经模型相比)
④ 观察到,通常情况下,非对称的、关注交互的、多粒度的架构可以在ad-hoc检索任务中工作得更好。
在 QA 任务上的比较
① 可能因为问题和答案之间的同构性的增加,对称(symmetric)结构在 QA 任务中得到了更广泛的采用。
② 表示=交互:在QA任务中,以表示为中心的架构和以交互为中心的架构没有一个明显的胜者。在 short answer sentence retrieval 数据集(即TREC QA和WikiQA)上更多地采用了以表示为中心的架构,而在longer answer passage retrieval 数据集(例如Yahoo!)上更多地采用了以交互为中心的架构。
③ 与ad-hoc检索类似,在较大的数据集上,神经模型比非神经模型更有可能获得更大的性能改进。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。