当前位置:   article > 正文

NLP-文本蕴含(文本匹配):概述【单塔模型、双塔模型】

NLP-文本蕴含(文本匹配):概述【单塔模型、双塔模型】

一、什么是文本蕴含识别

文本间的推理关系,又称为文本蕴含关系 (TextualEntailment),作为一种基本的文本间语义联系,广泛存在于自然语言文本中。简单的来说文本蕴含关系描述的是两个文本之间的推理关系,其中一个文本作为前提(premise),另一个文本作为假设(hypothesis),如果根据前提P能够推理得出假设H,那么就说P蕴含H,记做。这跟一阶逻辑中的蕴含关系是类似的。

例子:
在这里插入图片描述
这个例子中前提P是“A dog jumping for a Frisbee in the snow”,意思一只狗在雪地中接飞盘玩,同时下面给出了三个假设,这三个假设中前提跟第一个是蕴含关系(entailment),因为这句话描述的是“一个动物正在寒冷室外玩塑料玩具”,这是能够从前提推理出来的;第二句化描述的是“一只猫…”,这跟前提是冲突的(contradiction);第三句话与前提既不是蕴含关系也没有冲突,我们把它定义成中立的(neutral)。

文本蕴含识别(Recognizing Textual Entailment,RTE)主要目标是对前提和假设进行判断,判断其是否具有蕴含关系。文本蕴含识别形式上是一个文本分类的问题,在上面这个例子中是一个三分类的问题,label分别为entailment,contradiction,neutral。

二、文本蕴含识别数据集

Learning to Rank: pointwise、pairwise、listwise
LTR(Learning to rank)是一种监督学习(SupervisedLearning)的排序方法,已经被广泛应用到推荐与搜索等领域。传统的排序方法通过构造相关度函数,按照相关度进行排序。然而,影响相关度的因素很多,比如tf,idf等。传统的排序方法,很难融合多种因数,比如向量空间模型以tf*idf作为权重构建相关度函数,就很难利用其他信息了,并且如果模型中参数比较多,也会使得调参非常困难,而且很可能会出现过拟合现象。LTR采用机器学习很好地解决了这一问题。机器学习方法很容易融合多种特征,而且有成熟深厚的理论基础,并有一套成熟理论解决稀疏、过拟合等问题。




参考资料:
自然语言推理-文本蕴含识别简介
FAQ检索式问答系统及文本匹配计算
文本匹配方法 paper笔记
丁香园在语义匹配任务上的探索与实践
蚂蚁金融NLP竞赛——文本语义相似度赛题总结
匹配网络(Learning to Rank、单双塔模型)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/484719
推荐阅读
相关标签
  

闽ICP备14008679号