赞
踩
随着我国信息化建设的不断完善,生活变得更加便捷和方便,与此同时,基于互联网所产生的数据总量也在不断增加,预计到2025年,总的数据量会超过 163ZB,这要求相关企业和组织需要不断提升对数据的处理和分析能力,才能更好地利用数据。这些数据以各种各样的形式存在,比如,购物平台上买家用户对商品的评论和各类新闻资讯等文本数据;短视频或者电影资源等视频数据以及音乐等音频数据等。近年来,深度学习应用在数据处理领域的理论和实践取得了惊人的效果,得到了广泛的应用。深度学习的理论和实践应用到了数据处理的各个方面,比如视觉领域的图像分类、目标检测、图像分割和三维重建等;自然语言处理领域的舆情监测、垃圾短信识别、机器翻译、阅读理解和智能对话等。随着深度学习的理论和实践的不断深入,国内外的科技公司也都纷纷成立专门的人工智能部门进行深度学习的研究。
自然语言处理问题的研究是深度学习研究的一个重要领域,我们遇到不懂的问题时会在百度上搜索答案,为了能准确的返回我们想要的结果,就需要企业使用更好的自然语言处理算法;在浏览新闻资讯时,平台会给我们推荐我们想看的新闻和内容,这也使用到了自然与处理的相关知识;为了使社交平台更加文明,企业会对一些恶意评论,不文明的帖子等文本信息进行筛选和处理。使用自然语言处理的相关算法可以大大增加文本类相关工作的效率。
在自然语言处理领域,文本匹配问题是非常核心和基础的问题。对于文本匹配的研究工作可以应用到多个自然语言处理的任务中。比如,在信息检索的任务中,我们可以使用查询的文本和网页的文本进行相似度计算,找到匹配程度最好的网页。机器翻译的任务中,我们可以把一种语言的文本和另一种语言的文本计算文本相似度,匹配分值可以作为一种评价标准。自动问答的任务中,我们可以对问题和候选答案之间进行匹配,得到匹配分数并选出正确答案。还有对话系统和复述问题等多个领域也都能使用到文本匹配的算法。
针对不同的任务需要根据任务所具有的特性建立相应的文本匹配模型,如何利用一个较好的模型解决文本匹配问题成为了研究的重点与挑战。文本匹配问题面临的挑战主要来源于以下几个方面:
(1)词语之间存在多义性与同义性。词语的多义性是指某个词语在不同的语境下能够表达出不同的意思,例如“小米”在生活中是一种主食,在智能手机行业它表示一家公司的名称。词语的同义性是指多个不相同的词语能够表达出同样的意思,例如“必然”、“必定”和“一定”,这些词语完全不同,但其表达的语义是相同的。
(2)词语或短语之间存在组合性与顺序性。词语之间可以互相组合形成不同的短语,不同的短语也同样存在同义性,且两个词语之间组合顺序的不同也会导致形成的短语代表不同的语义。
(3)文本匹配的层次性。文本具有层次性,词语互相组合能构成短语,短语互相组合能构成句子,句子互相组合能构成段落,因此匹配还需考虑不同层次的匹配信息。
深度学习的概念起源于人工神经网络的研究,是机器学习中一条极具特色的分岔路口。深度学习网络类似于经验学,能够从大量数据中学习,并找寻大数据中隐藏的特殊规律或规则。研究深度学习的目的是仿照人脑进行分析学习的过程构造其相应的深度学习网络,图像、声音、文本等都能使其数字化后不断地输入到DL网络中进行学习,使得此网络模型能够像人类一样从大量信息中学习到相应的知识。深度学习研究自2006年Hinton[1]在《Science》期刊中正式提出,引起了许多国内外研究者以及工程人员的广泛关注,开展了一系列深度学习的研究与工程应用的研究。至今,深度学习已经形成了完整的理论体系,在各领域的研究中不断取得重大突破。
NLP是语言学和人工智能的交叉科学,目标是让计算机能够理解人类的语言。其包括的主要范畴有:分词、词性标注、命名实体识别、句法分析、关键词抽取、文本分类、自动摘要以及文本匹配等等。传统的自然语言处理主要是利用语言学领域本身的知识结合一些统计学的方法来获取语言知识。伴随着机器学习浅层模型的发展,自然语言处理领域的研究取得了一定的突破,但在消除语言歧义、语言的理解等方面还是显得不足。近年来,随着深度学习相关技术取得了显著的进展,如卷积神经网络、循环神经网络,其在自然语言处理方面的应用也展现出了明显的优势。
传统文本匹配模型又被称为基于特征模型,其主要分为基于关键词模型、助推模型、线性模型。传统文本匹配模型需要在人工抽取特征的过程中消耗大量的时间,模型可以学习的参数也很少,对于一些特定的文本匹配任务需要根据其特点进行人工设计,导致不同的文本匹配任务之间不具有通用性。因此,传统文本匹配模型在表现效果较好的一个文本匹配任务上的特征很难用到其他文本匹配任务上。
伴随着深度学习的热潮,研究者们开始采用深度学习的建模方法求解文本匹配问题,深度文本匹配模型能够自动从原始数据中学习特征,节约了人工定义特征的开支。此外,深度文本匹配模型引入词向量Word2Vec的技术,经过Word2Vec训练后的语料库中的词语被映射到多维的向量空间中,语义接近或相同的词语之间的距离相近,更好地解决了词语匹配的同义性问题,而且DL中神经网络的层次化设计的特色与文本匹配研究相适应。
深度文本匹配是一种根据大量数据训练形成一定的语义理解规则的文本匹配模型,传统文本匹配主要是根据文本的结构利用统计学方法对文本进行匹配,深度文本匹配更符合一个人在匹配句子时大脑所经过的思考与运算过程。
(1)从概念背景来看,传统文本匹配对于文本之间的语义理解欠缺思考,仅仅考虑了文本的组织与构成信息,其文本之间的匹配能力具有一定的瓶颈,难以正确的匹配两段文本的语义。深度文本匹配提倡更深层次的考虑,匹配文本时不仅需要从文本结构方面考虑,更需要考虑的是文本间蕴含的潜在语义。
(2)从算法特点来看,深度文本匹配从大量文本数据中学习文本中的语义规则,找寻模型最终拟合的最优点。传统文本匹配利用统计学的方法运算得到文本之间的匹配度。直观上看,深度文本匹配类似于优化算法,像一个婴儿不断学习语言并理解语言形成规则,具有算法公式复杂、参数较多、不易实现等特点,而传统文本匹配公式简洁、算法步骤简明、参数较少、易于实现。
(3)从匹配速度及效率来看,深度文本匹配打破了传统文本匹配无法匹配两段文本之间语义关系的缺陷,在匹配效率上有了突破性的进展,但是深度文本匹配需要通过大量文本数据训练,训练时间较长,在匹配速度方面不及传统文本匹配。
(4)从应用范围来看,深度文本匹配是近十年内提出来的概念,比传统文本匹配提出时间晚了几十年,但由于深度文本匹配的匹配效率高于传统文本匹配,在实际生活中已经逐渐使用深度文本匹配取代传统文本匹配。目前,传统文本匹配主要应用于网络搜索、推荐系统等需求匹配速度快的场景,深度文本匹配主要应用于自动问答、复述问题等需求匹配准确率较高的场景。
与传统文本匹配模型相比,深度文本匹配模型有着明显的特色与优势:
(1)结合词向量技术,通过语料库训练将词语映射到多维的向量空间之中,词语之间的语义关系能够通过词语表示的向量在这个多维的向量空间中的距离来描述。
(2)深度学习网络具有鲜明的层次性,文本中相邻的词语互相组合形成短语能够较好地使用深度学习网络表示,模型计算过程具有可解释性。
(3)深度学习网络通过高性能的计算能够从大批量的文本数据中学习出一定的语义规律,且深度学习网络的构建灵活、轻便,可以仿照人类思想定义网络结构描述文本的匹配过程。
文本匹配是自然语言处理领域的重要研究方向。对于PI任务可以看作是句子或文本对是否匹配,对于答案选择任务可以看作是问题和候选答案的匹配。受深度学习的启发,神经网络被广泛应用于文本建模,深度学习模型在语义空间中将文本用词向量矩阵表示,并利用向量之间的“距离”更准确地描述句子,CNN在提取文本抽象特征方面有着出色的表现,而RNN在维护和使用远程信息方面显示出其独特的优势。
研究者们根据深度文本匹配中各模型的特色和着重点划分为表示型和交互型。表示型着重于模型表示层的构建,如何利用深度学习构建更有效合理的文本表达用于文本匹配是表示型模型的研究,典型的表示型深度文本匹配模型结构有深度语义结构(Deep Semantic Structured,DSSM)、CDSSM、ARC-I和多粒度卷积神经网络。交互型深度文本匹配模型并不关注于构建文本的表达,在最细的粒度(单词粒度)中对两段文本直接进行交互,利用交互后形成的交互矩阵得出最终的匹配相似度,经典的交互型深度文本匹配模型结构有ARC-II、深层匹配模型和匹配金字塔模型等。
近年来深度学习在自然语言领域的研究不断深入,在多个任务上已取得了惊人的效果比如语法分析、词性标注、关系分类、情感分析等。在文本匹配领域也有非常大的进展。深度学习的文本匹配模型可以分为以下三大类:(1)基于单语义表达的文本匹配算法。(2)基于多语义表达的文本匹配算法。(3)基于注意力机制的文本匹配算法[2]。
基于单语义表达的文本匹配算法的主要思想是利用两个相同的结构的深度学习模型将两个文本均表示成低维稠密的向量,然后使用余弦相似度、曼哈顿距离或神经网络等方式计算向量之间的相似程度,从而得到文本之间匹配程度,这种思想主要来源于孪生网络框架[3]。
使用深度学习模型将文本表示成向量的方法近年来已有较多的研究,Mikolov[4]等人在2014年提出了通过Word2Vector得到段向量的方法,Kalchbrenner[5]和Kim[6]等人在2014年提出的卷积神经网络的方法,提出了一个动态卷积神经网络(DCNN)模型,DCNN模型底层通过组合相邻词语的信息逐渐向上传递,并且结合成新的短语信息,从而形成句子之间的语义关系。基于 Kalchbrenner的想法,Yin[7]等人于2015年提出了MultiGranCNN模型,MultiGranCNN模型通过使用CNN提取不同层次的文本信息,并拼接不同层次的文本信息作为全连接神经网络的输入得到最终的匹配度。通过提取不同层次之间的文本信息,MultiGranCNN模型更好地保存了句子的详细信息,有效地提高了文本匹配的准确性,但是MultiGranCNN模型对两段文本之间交互不足,缺乏对文本之间的交互信息的提取。
Li[8]和Lai[9]等人在2015年提出的循环神经网络的方法以及Richard[10]和Ozan[11]等人提出的树状循环神经网络的方法。Huang[12]等人在2013年提出的深度语义结构化模型(DSSM)是比较早使用深度学习的方法来进行文本匹配的模型,相对于传统的文本匹配模型有较大的提升,该模型使用了5层前馈神经网络对文本进行编码,从而得到了两个文本的向量表示,最后使用余弦相似度计算两个文本的匹配程度。随着卷积神经网络在文本领域的成功应用,微软的Shen[13,14]等人在2014年提出了基于卷积网络的深度语义结构化模型(CDSSM),基于卷积网络的深度语义结构化模型在进行句子编码的前几层使用了卷积神经网络,和前馈神经网络相比,卷积神经网络更能把握句子的局部特征,能获取到如短语或固定搭配等局部信息,在得到两个文本的向量表示之后继续使用余弦相似来计算匹配分数。受Kim把卷积神经网络应用于文本分类的启发,李航等人提出了ARC-I模型[14],模型整体思路是通过卷积神经网络对句子编码,将两个句子分别表达成向量并进行合并,合并成一个向量之后接入前馈神经网络进行分类。
基于Kim提出的使用CNN文本建模方法,Hu[15]提出了ARC-I和ARC-II模型。ARC-I模型将两个句子的长度填充到相同的长度,构造了两个相同大小的向量矩阵,两个向量矩阵分别利用卷积池化操作提取特征,并将这些特征一起输入到一个全连接神经网络中得到最终的匹配度,ARC-I模型的结构简单,模型匹配速度快,但ARC-I模型将整个文本的信息收缩在一个低维度向量中,缺失了更细节的信息表达。ARC-II模型让两个句子在各自的高级表征成熟之前进行交互,并保留了各自的发展空间,其表现效果略高于ARC-I模型,但ARC-II模型对于文本之间的交互定义不清晰,其定义是两个细粒度文本表达的加权平均值,这种定义没有反映出文本之间的交互,因此总体性能不够理想。
Qiu[16]等人提出了卷积张量神经网络模型(CNTN),卷积张量神经网络匹配模型使用卷积神经网络来对句子进行编码,得到句子的向量表示之后,使用张量神经网络(Neural Tensor Network)来替代前馈神经网络进行文本相似度的计算,也取得了不错的效果。随着近年来长短期记忆网络在自然语言处理领域的应用逐渐成熟,Jonas等人提出了孪生长短期记忆网络(Siamese LSTM)[17],将文本表示成词向量组合而成的矩阵并输入到长短期记忆网络中,将长短期记忆网络最后一个时间步的隐藏层输出的向量作为整个文本的表示,接着使用曼哈顿距离计算两个向量之间的距离,并将这个距离作为文本的匹配分数,取得了比较好的效果。双向长短期记忆网络不仅可以获得单词前文的信息,还能获得该单词的上下文信息,所以Paul等人在2016年提出了孪生双向长短期记忆网络(Siamese BiLSTM)[18],孪生双向长短期记忆网络使用了双向长短期记忆网络替代长短期记忆网络,这样不仅能获得前文的信息,还能获得后文的信息,每个时间步的隐藏层输出均是上下文相关的,此外文本的向量表示并非只用了最后一层隐藏层的输出向量,而是使用所有隐藏层输出向量的平均值,同时,作者使用了多层的双向长短期记忆网络对两个文本进行编码,也取得了较好的效果。Palangi等人[19]也使用长短期记忆网络在文本匹配中取得了不错的效果。微软的Sandeep等人[20]在2018年采用多任务的训练方法,通过大规模数据训练出了更具有泛化能力的句子表征,在多个文本相似度的数据集中取得了很好的效果。
多语义的文本匹配(也可以称为交互的文本匹配)在匹配的时候不仅注重整个文本的文本表示,也关注局部的表示,比如词语或短语的表示,并通过两个文本局部间的匹配情况进行交互计算,并得到匹配矩阵,并通过交互计算得到的矩阵进行分类。Yin[21]等人在2015年提出了使用多粒度的卷积神经网络,获取了包括句子、长短语、短语和单词等四个粒度层次的匹配信息,在两个句子间进行两两的匹配分数计算,随后得到相似度分数构成的矩阵,随后接入前馈神经网络进行分类,由于获取了多粒度的匹配信息,模型取得了很不错的效果。Wan[21]等人在2016年提出了多视角循环神经网络模型,模型使用了双向长短期记忆网络对文本进行编码,这样的好处是可以获取单词上下文的含义,使得单词的上下文能影响该词编码后的输出向量,在使用输出的隐藏层向量计算两个文本两两单词之间的匹配分数,这样会得到一个由单词的匹配分数组成匹配矩阵,在得到匹配矩阵之后,模型使用了K最大池化即从匹配矩阵的每一个切片中选择K个最大的值组成一个向量,在把每个切片得到的向量进行合并,组成一个长向量,之后接入前馈神经网络进行分类。
李航等人在2015年提出了ARC-II模型[14],首先会使用一维卷积的方式来计算两个文本的匹配矩阵,再依次通过二维卷积神经网络、池化层、前馈神经网络得到分类结果。庞亮[22]等人在2016年提出了MatchPyramid模型,MatchPyramid模型重新定义了句子之间的交互,其定义的交互矩阵描述了基于最细的粒度(句子中的单词粒度)的匹配程度。MatchPyramid模型分别使用异或(XNOR)关系、余弦相似度以及点积三种定义方式来定义两个词语向量之间的相似程度。根据词语出现在文本中的顺序序列可以计算出两两词语之间的交互程度,计算完成后能够得到一个二维的交互矩阵。MatchPyramid模型的提出给研究者们提供了文本匹配研究新的思考方式,且在某些文本匹配研究的任务中匹配精确度有了一定的提升,但Match Pyramid局限于单一粒度,对于更高层次的粒度的匹配欠缺考虑,无法学习高层次粒度的匹配信息。2018年,Chen[23]等人提出了一种多通道卷积神经网络模型,对于文本匹配的思考加入了词性分析、语法分析等附加注意机制,形成了多个通道的卷积。MIX模型可学习的参数较多,但模型结构复杂庞大,训练较为困难。吴少洪等人[24]在2019年提出了多粒度的匹配模型,在进行交互计算过程中获取到了多粒度的匹配信息。
注意力机制最早在自然语言处理领域中的应用是将注意力机制应用于基于编码解码的机器翻译模型中,Google于2016年提出了基于注意力机制的文本匹配模型[25]首先将两个句子进行软对齐再进行比较,最后再进行比较,并把比较的结果聚合起来进行分类。考虑两个句子:“怎么去图书馆”和“书店在哪里”,人类在比较时会把“怎么去”和“在哪里”进行比较,把“书店”和“图书馆”进行比较,为了达到这样的效果,模型使用了对齐层,原文使用的软注意力机制,所以并非是直接找到一个词语进行比较,而是根据不同的注意力权重对向量进行加权求和得到对齐向量。对齐层之后是比较层,文章使用了前馈神经网络来对单词的词向量和对齐向量进行比较,比较之后,模型把各个词语的比较结果聚合之后接入前馈神经网络进行分类。2018年,Google又提出了BERT预训练语言模型[26],通过预训练的方式提高了多个自然语言处理任务的效果,在包括文本匹配、阅读理解、机器翻译等多个自然语言处理任务上均取得了惊人的结果。次年,Google的Yang等人[27]提出了XLNet,结合了自编码语言模型和自回归语言模型,在包括文本匹配的多个任务中超越了BERT。2019年,Facebook的Liu等人[28]提出了RoBERTa,对BERT进行了改进,使用动态掩码。微软的Liu等人[29]在2019年结合了预训练语言模型和多任务训练的优点,提出了MT-DNN模型。
深度文本匹配模型可以从多个角度进行分类,比如根据匹配方式的角度划分、根据匹配层次的角度划分、根据建模采用的方法划分,表1展示了深度文本匹配模型的分类,表中列出了现有的部分具有代表性的深度文本匹配模型,每种模型各有其特色。
表1 深度文本匹配模型分类
建模方法 | 表示型 | 交互型 | |
单语义文本表达 | 多语义文档表达 | 直接建模匹配 | |
全连接 | DSSM | —— | DeepMatchTree |
卷积神经网络 | CDSSM,ARC-I,CNTN | MultiGranCNN | DeepMatch,ARC-II,MatchPyramid |
递归神经网络 | —— | uRAE | —— |
循环神经网络 | LSTM-RNN | MV-LSTM | Match-SRNN |
交互型深度文本匹配模型算法与表示型深度文本匹配模型算法有着本质的区别,交互型深度文本匹配模型省略了构建短语或句子表达的步骤,直接把两段文本进行交互,再通过神经网络提取文本中的交互信息作为全连接神经网络的输入。
基于深度学习的文本匹配模型只能处理句子长度适中(10~500词)的文本。对于过长或者过短的文本,模型处理起来都比较棘手。首先对于过短的文本(小于10个词,例如很短的查询项),由于文本包含的词太少,如果进行深度并且复杂的变换和压缩,会导致短文本过度变换,影响模型的效果;而对于过长的文本(大于500个词,例如一整篇文章)则会引入大量无关的噪声,例如在信息检索领域,可能文档中只有一部分信息能够匹配上查询项,但是这部分匹配就足以检索出这篇文章。
如果两段文本长度差异比较大的时候,比如一段文本是10个词左右,而另一段文本是几千个词,这个时候直接建模匹配模式的深度学习模型就会得到一个很窄的匹配矩阵。在这样的矩阵上进行匹配模式的挖掘,可能就会更偏向于更长的文本方向上的信息积累,而在短文本 方向上能获取的信息比较有限。所以类似查询扩展和文档摘要这类的工作可以作为模型数据的预处理,如果能将这两方面的模型和现有模型进行一个整合,构造成一个端对端的可学习模型,将是个很好的改进。
模型的可解释性是现在深度模型的一个通病,尤其在文本匹配领域,当两段文本匹配上了,如何解释和分解这个匹配的过程也将是一个重要的问题。主题深度匹配模型认为两段文本匹配是根据各个区域的主题进行的,MatchPyramid模型则认为匹配是在语义下的n-gram和n-term匹配,而Match-SRNN模型则认为文本的匹配更类似于在语义下扩展的最长公共子序列问题。这些假设可能并不是两段文本匹配上完全的原因,但至少窥探到了匹配问题的一些可以解释部分。进一步更合理地匹配可解释性的挖掘,希望可以提供更详尽的对于文本为什么能够匹配上的问题的原因。
深度文本匹配模型解决的问题是给定两段文本计算它们的匹配度,也就是一个判别式的模型,更进一步地说,如果我们通过大量样本学习到一段文本对应匹配的文本应该是什么样子的,那么我们是否可以构造出一个生成式的模型呢?在这方面,机器翻译和对话系统都有很多尝试来通过当前的文本生成匹配另一段文本。机器翻译中最成功的就是注意力模型(Attention Model),也很快用到了图像生成标题的任务中。而在对话系统中也有利用卷积神经网络来构建生成式模型的genCNN。在这些尝试中,还没完全利用上判别式的深度匹配模型的一些发现,如何更好地利用这些仍是一个难题,有待我们继续探索。
文本匹配问题是自然语言理解领域的一类重要问题。深度学习可以有效应对文本匹配中的3个挑战:文本语义的多元性、短语匹配的结构性和文本匹配的层次性,尤其在一些需要深入建模匹配关系的问题中,深度文本匹配模型比传统模型能够取得更好的效果。总的来说,目前深度学习在文本匹配领域已经取得了不错的效果并得到了广泛关注,但仍有一些问题需要解决,相信未来会有更多更好的深度匹配模型在各种具体的文本匹配应用中被使用。
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015:436-444.
[2] 李宏广. 基于深度神经网络的文本匹配算法研究[D].合肥:中国科学技术大学, 2019.
[3] S. Chopra, R. Hadsell, Y. LeCun. Learning a similarity metric discriminatively with application to face verification[C]. Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, San Diego, 2005, 539-546.
[4] Q. Le, T. Mikolov. Distributed representations of sentences and documents[C]. Proceedings of the 3lst International Conference on Machine Learning, Beijing, 2014, 1188-1196.
[5] N. Kalchbrenner, E. Grefenstette, P. Blunsom. A convolutional neural network for modelling sentences[C]. Proceedings of the 52rd Annual Meeting of the Association for Computational Linguistics, Baltimore, 2014, 655-665.
[5] Y. Kim. Convolutional neural networks for sentence classification[C]. Proceedings of the Conference on Empirica Methods in Natural Language Processing, Doha, 2014, 1746-1751.
[6] Yin W, Hinrich Schütze. MultiGranCNN: an architecture for general matching of text chunks on multiple levels of granularity. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing - Short Papers, July 26-31, 2015, Beijing, China. 2015:63-73.
[7] J. Li, D. Jurafsky, E. Hovy. When are tree structures necessary for deep learning of representations[C]. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics, Beijing, 2015, 2304-2314.
[8] S. Lai, L. Xu, K. Liu, et al. Recurrent convolutional neural networks for text classification[C]. Proceedings of the 29th AAAI Conference on Artificial Intelligence, Austin, 2015, 2267-2273.
[9] R. Socher, C. Lin, C. Manning, et al. Parsing natural scenes and natural language with recursive neural networks[C]. Proceedings of the 28th International Conference on Machine Learning, Bellevue, 2011, 129-136.
[10] O. Irsoy, C. Cardie. Deep recursive neural networks for compositionality in language[C]. Proceedings of the Advances in Neural Information Processing Systems. Montreal, 2014, 2096-2104.
[11] P. Huang, X. He, J. Gao, et al. Learning deep structured semantic models for web search using clickthrough data[C]. Proceedings of the 22nd ACM International Conference on Conference on Information and Knowledge Management. India, 2013, 2333-2338.
[12] Y. Shen, X. He, J. Gao, et al. A latent semantic model with convolutional-pooling structure for information retrieval[C]. Proceedings of the 23rd ACM International Conference on Information and Knowledge Management, New York, 2014, 101-110.
[13] Y. Shen, X. He, J. Gao, et al. Learning semantic representations using convolutional neural networks for web search[C]. Companion Publication of International Conference on World Wide Web Companion ACM, Korea, 2014: 373-374.
[14] B. Hu, Z. Lu, H. Li, et al. Convolutional neural network architectures for matching natural language sentences[C]. Proceedings of the Advances in Neural Information Processing Systems, Montreal, 2014, 2042-2050.
[15] Hu B, Lu Z, Li H, et al. Convolutional neural network architectures for matching natural language sentences. Proceedings of the 27th International Conference on Neural Information Processing Systems, Dec 08-13, 2014, Montreal, Canada. 2014:2042-2050.
[16] X. Qiu, X. Huang. Convolutional neural tensor network architecture for community-based question answering[C]. Proceedings of the 24th International Joint Conference on Artificial Intelligence, Buenos Aires, 2015, 1305-1311.
[17] J. Mueller, A. Thyagarajan. Siamese Recurrent Architectures for Learning Sentence Similarity[C]. Proceedings of the 30th AAAl Conference on Artificial Intelligence, Phoenix, 2016,2786-2792.
[18] P. Neculoiu, M. Versteegh, M. Rotaru, Learning Text Similarity with Siamese Recurrent Networks[C]. Proceedings of the 1st Workshop on Representation Learning for NLP, Berlin, 2016, 148-157.
[19] H. Palangi, L. Deng, Y. Shen, et al. Deep sentence embedding using long short-term memory networks: Analysis and application to information retrieval[J]. IEEE/ ACM Transactions on Audio, Speech, and Language Processing, 2016, 24(4): 694-707.
[20] S. Subramanian, A. Trischler, Y. Bengio, et al. Learning General Purpose Distributed Sentence Representations via Large Scale Multi-task Learnin [J]. arXiv preprint arXiv: 1804.00079, 2018.
[21] W. Yin, T. Schutze. Multi-Gran-CNN: An architecture for general matching of text chunks on multiple levels of granularity[C]. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics, Beijing, 2015, 63-73.
[21] S. Wan, Y. Lan, J. Guo, et al. A deep architecture for semantic matching with multiple positional sentence representations[C]. Proceedings of the 30th AAAl Conference on Artificial Intelligence, Phoenix, 2016, 2835-2841.
[22] 庞亮, 兰艳艳, 徐君, 等. 深度文本匹配综述[J]. 计算机学报, 2017, 40(04): 985-1003.
[23] Chen H L, Han F, Di N, et al. MIX: Multi-Channel Information Crossing for Text Matching. Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & DataMining, Aug 19-23, 2018, London, United Kingdom. 2018:110-119.
[24] 吴少洪, 彭敦陆, 苑威威, 陈章, 等. MGSC:一种多粒度语义交叉的短文本语义匹配模型. [J]. 小型微型计算机系统, 2019, 40(06):1148-1152.
[25] A. Parikh, T. Oscar, D. Das, et al. A Decomposable Attention Model for Natural Language Inference[C]. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, Austin, 2016, 2249-2255.
[26] J. Devlin, M. Chang, K. Lee, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. arXiv preprint arXiv: 1810.04805, 2018.
[27] Z. Yang, Z. Dai, Y. Yang, et al. XLNet: Generalized Autoregressive Pretraining for Language Understanding[J]. arXiv preprint arXiv: 1906.08237, 2019.
[28] Y. Liu, M. Ott, N. Goyal, et al. RoBERTa: A Robustly Optimized BERT Pretraining Approach[J]. arXiv preprint arXiv: 1907.11692, 2019.
[29] X. Liu, P. He, W. Chen, et al. Multi-Task Deep Neural Networks for Natural Language Understanding[J]. arXiv preprint arXiv: 1901.11504, 2019.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。