赞
踩
在各种文本分类任务中,基于深度学习的模型已经超越了经典的基于机器学习的方法,包括情感分析、新闻分类、问答和自然语言推理。在本次研究工作中,我们详细回顾了150多个基于深度学习的文本分类模型,并讨论了它们的技术贡献、相似性以及各自的优势。我们还总结了40多个广泛用于文本分类的流行数据集。最后,我们定量分析了不同深度学习模型在基准数据集上的表现,并讨论了未来的研究方向。
文本分类是自然语言处理(NLP)中的一个经典问题,其目的是为句子、查询、段落和文档等文本单元分配标签或标记。它有着广泛的应用,包括问答、垃圾邮件检测、情感分析、新闻分类、用户意图分类、内容调节等。文本数据可以来自不同的来源,例如web数据、电子邮件、聊天、社交媒体、机票、保险索赔、用户评论、客户服务的问题和答案等等。文本是一个极其丰富的信息源,但由于其非结构化的性质,从中提取有效信息是一个非常耗时的过程。
文本分类可以通过手动注释或自动标记来执行。随着工业应用中文本数据规模的不断扩大,文本自动分类变得越来越重要。自动文本分类的方法可分为三类:
基于规则的方法使用一组预定义的规则将文本分类为不同的类别。例如,任何带有“football”、“basketball”或“basketball”字样的文档都会被指定“sport”标签。这些方法需要对领域有深入的了解,并且系统很难维护。另一方面,基于机器学习的方法学习根据过去对数据的观察进行分类。机器学习算法利用预先标注的样本作为训练数据,学习文本片段与其标注之间的内在关联。因此,基于机器学习的方法能够检测数据中隐藏的模式,具有更高的可伸缩性,可以应用于各种任务。这与基于规则的方法不同,后者需要为不同的任务设置不同的规则。顾名思义,混合方法使用基于规则和机器学习方法的组合来进行预测。
机器学习模型近年来受到了广泛的关注。大多数经典的基于机器学习的模型遵循两步过程,第一步从文档(或任何其他文本单元)中提取一些手工制作的特征,第二步将这些特征输入分类器进行预测。一些流行的手工制作功能包括Bag of Words (BoW)及其扩展。常用的分类算法包括朴素贝叶斯、支持向量机(SVM)、隐马尔可夫模型(HMM)、梯度增强树和随机森林。两步方法有几个局限性。例如,依赖手工制作的特性需要繁琐的特性工程和分析来获得良好的性能。此外,特征设计对领域知识的强烈依赖性使得该方法很难推广到新的任务中。最后,这些模型不能充分利用大量的训练数据,因为特征(或特征模板)是预定义的。
从2012年开始,一个基于深度学习的模型AlexNet[1]在ImageNet的竞赛中大获全胜。从那时起,深度学习模型被广泛应用于计算机视觉和自然语言处理的任务中,提高了技术水平[2–5]。这些模型试图以端到端(End to End)的方式学习特征表示和执行分类(或回归)。它们不仅有能力发现数据中隐藏的模式,而且在不同的应用程序之间更容易转移。毫不奇怪,近年来这些模型正成为各种文本分类任务的主流框架。
在本次研究中,我们回顾了过去六年中为各种文本分类任务开发的150多种深度学习模型,包括情感分析、新闻分类、主题分类、问答(QA)和自然语言推理(NLI)。我们根据这些工作的神经网络结构将其分为几个类别,例如基于递归神经网络(RNN)、卷积神经网络(CNN)、注意机制(Attention)、Transformers、胶囊网络(Capsule Nets)等的模型。本文的主要内容可以总结如下:
本节简要介绍了本文讨论的不同文本分类任务:情感分析、新闻分类、主题分析、问答和自然语言推理。
情感分析Sentiment Analysis. 情感分析是文本分类的一个热门分支,旨在分析文本数据(如产品评论、电影评论和推特)中人们的观点,并提取他们的情感倾向。情感分类可以是二元问题,也可以是多类问题。二元情感分析是将文本分为正类和负类,而多类情感分析则侧重于将数据分为细粒度标签或多级强度。
新闻分类News Categorization. 新闻内容是对人们产生重大影响的最重要的信息来源之一。新闻分类系统可以帮助用户实时获取感兴趣的信息。识别新兴新闻主题和基于用户兴趣推荐相关新闻是新闻分类的两个主要应用。
主题分析Topic Analysis. 主题分析试图通过识别文本的主题来自动地从文本中获取意义。主题分类是主题分析的重要组成部分。主题分类的目的是为每个文档分配一个或多个主题,以便于分析。
问答Question Answering (QA). QA系统有两种类型:抽取式和生成式。抽取式QA可以看作是文本分类的一个特例。给定一个问题和一组候选答案(例如,文献[6]中给定文档中的文本跨度),我们需要将每个候选答案分类为正确与否。生成性QA学习从零开始生成答案(例如使用Sequence-to-Sequence模型)。除非另有说明,本文讨论的质量保证任务是抽取式质量保证。
自然语言推理Natural language inference (NLI). 自然语言推理也被称为识别文本蕴涵(RTE),预测一个文本的意义是否可以从另一个文本中推断出来。特别是,系统需要为每一对文本单元分配一个标签,例如蕴涵、矛盾和中性[7]。释义是NLI的一种广义形式,也称为文本对比较。这项任务是衡量一个句子对的语义相似性,以确定一个句子是否是另一个句子的转述。
在本节中,我们将回顾针对各种文本分类问题提出的150多个深度学习框架。为了更容易理解,我们根据这些模型的主要架构贡献,将其分为以下几类:
前馈网络是文本表示的最简单的深度学习模型之一。然而,它们在许多文本分类基准上取得了很高的准确率。这些模型将文本视为一袋单词。对于每个单词,他们使用嵌入模型(如word2vec[8]或Glove[9])学习向量表示,将嵌入的向量和平均值作为文本的表示,将其通过一个或多个前馈层,称为多层感知器(MLP),然后使用逻辑回归、朴素贝叶斯或SVM等分类器对最后一层的表示进行分类[10]。这些模型的一个例子是深度平均网络(DAN)[10],其结构如图1所示。尽管它很简单,但DAN优于其他更复杂的模型,这些模型被设计用来明确地学习文本的组成性。例如,DAN在高语法方差的数据集上优于语法模型。Joulin等人[11]提出了一种简单有效的文本分类器fastText。与DAN一样,fastText将文本视为一袋单词。与DAN不同,fastText使用n-grams作为附加功能来捕获本地词序信息。这在实践中证明是非常有效的,同时获得了与显式使用词序的方法相当的结果[12]。
Fig. 1. The architecture of the Deep Average Network (DAN) [10]
Le和Mikolov[13]提出了doc2vec,它使用一种无监督算法来学习可变长度文本片段的定长特征表示,例如句子、段落和文档。如图2所示,doc2vec的架构类似于CBOW模型的架构[8,14]。唯一的区别是通过矩阵
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。