赞
踩
文本分类是自然语言处理中最基本和最重要的任务。由于深度学习取得了空前的成功,在过去十年中,该领域的研究激增。文献中提出了许多方法、数据集和评估指标,提出了对全面和更新调查的需求。本文通过回顾 1961 年至 2020 年最先进的方法填补了空白,重点关注从浅层到深度学习的模型。我们根据涉及的文本和用于特征提取和分类的模型创建文本分类的分类法。然后我们详细讨论这些类别中的每一个,处理支持预测测试的技术发展和基准数据集。本次调查还提供了不同技术之间的综合比较,以及确定各种评估指标的优缺点。最后,我们总结了关键影响、未来的研究方向和研究领域面临的挑战。
文本分类——为文本指定预定义标签的过程——是许多自然语言处理 (NLP) 应用程序中必不可少且重要的任务,例如情感分析 [1][2] [3]、主题标签 [4] [ 5] [6],问答 [7] [8] 和对话行为分类 [9]。在信息爆炸的时代,人工对大量文本数据进行处理和分类既费时又具有挑战性。此外,人工文本分类的准确性很容易受到疲劳和专业知识等人为因素的影响。希望使用机器学习方法来自动化文本分类过程,以产生更可靠和更少主观的结果。此外,这还有助于提高信息检索效率,并通过定位所需信息来缓解信息过载问题。
图 1 给出了文本分类过程的流程图,在浅层和深度分析的指导下。文本数据不同于数字、图像或信号数据。它需要仔细处理 NLP 技术。第一个重要步骤是为模型预处理文本数据。浅层学习模型通常需要通过人工方法获取好的样本特征,然后用经典的机器学习算法对其进行分类。因此,该方法的有效性在很大程度上受到特征提取的限制。然而,与浅层模型不同,深度学习通过学习一组用于将特征直接映射到输出的非线性变换,将特征工程集成到模型拟合过程中。主要文本分类方法的示意图如图 2 所示。从 1960 年代到 2010 年代,基于浅层学习的文本分类模型占主导地位。浅层学习是指基于统计的模型,例如朴素贝叶斯 (NB) [10]、K 最近邻 (KNN) [11] 和支持向量机 (SVM) [12]。与早期的基于规则的方法相比,该方法在准确性和稳定性方面具有明显优势。然而,这些方法仍然需要进行特征工程,这既费时又费钱。此外,他们通常忽略文本数据中的自然顺序结构或上下文信息,这使得学习单词的语义信息变得具有挑战性。自 2010 年代以来,文本分类逐渐从浅层学习模型转变为深度学习模型。与基于浅层学习的方法相比,深度学习方法避免了人工设计规则和特征,自动为文本挖掘提供语义上有意义的表示。因此,大多数文本分类研究工作都是基于 DNN,这是一种计算复杂度高的数据驱动方法。很少有工作关注浅层学习模型来解决计算和数据的局限性。
图 1. 每个模块中经典方法的文本分类流程图。提取浅层模型的基本特征至关重要,但特征可以由 DNN 自动提取。
图 2. 1961 年至 2020 年主要文本分类方法示意图。2010 年之前,几乎所有现有方法都基于浅层模型(橙色);自 2010 年以来,该领域的大部分工作都集中在深度学习方案(绿色)上。
在文献中,Kowsari 等人。 [13] 调查了不同的文本特征提取、降维方法、文本分类的基本模型结构和评估方法。 Minaee 等人。 [14] 回顾了最近基于深度学习的文本分类方法、基准数据集和评估指标。与现有的文本分类调查不同,我们将现有模型从浅层到深度学习与近年来的工作相结合。浅层学习模型强调特征提取和分类器设计。一旦文本具有设计良好的特征,就可以通过训练分类器快速收敛。 DNN 可以自动执行特征提取,无需领域知识也能很好地学习。然后,我们给出了单标签和多标签任务的数据集和评估指标,并从数据、模型和性能的角度总结了未来的研究挑战。此外,我们在四个表格中总结了各种信息,包括经典浅层和深度学习模型的必要信息、DNN 的技术细节、主要数据集的主要信息以及不同应用下最先进方法的一般基准。总之,本研究的主要贡献如下:
• 我们介绍了文本分类的过程和发展,并在表 1 中总结了经典模型在出版年份方面的必要信息,包括地点、应用、引用和代码链接。
• 我们根据模型结构对主要模型(从浅层到深度学习模型)进行综合分析和研究。我们总结了经典或更具体的模型,并在表 2 中主要概述了基本模型、指标和实验数据集方面的设计差异。
• 我们介绍了目前的数据集,并给出了主要评估指标的制定,包括单标签和多标签文本分类任务。我们在表 3 中总结了主要数据集的必要信息,包括类别数、平均句子长度、每个数据集的大小、相关论文和数据地址。
• 我们在表 5 中总结了经典模型在基准数据集上的分类准确度得分,并通过讨论文本分类面临的主要挑战和本研究的主要影响来总结调查。
调查的其余部分安排如下。第 2 节总结了与文本分类相关的现有模型,包括浅层学习和深度学习模型。第 3 节介绍了主要数据集以及单标签和多标签任务的汇总表和评估指标。然后,我们在第 4 节中给出了经典文本分类数据集中领先模型的定量结果。最后,我们在第 6 节总结文章之前,在第 5 节中总结了深度学习文本分类的主要挑战。
表1. 文本分类的主要模型的必要信息,引文的统计时间为 2020年6月8日。
文本分类是指从原始文本数据中提取特征,并根据这些特征预测文本数据的类别。在过去的几十年中,已经提出了许多用于文本分类的模型,如表 1 所示。我们将文本分类的主要模型的主要信息(包括地点、应用、引用和代码链接)制成表格。该表中的应用包括情感分析(SA)、主题标签(TL)、新闻分类(NC)、问答(QA)、对话行为分类(DAC)、自然语言推理(NLI)和事件预测(EP) .对于浅层学习模型,NB [10] 是第一个用于文本分类任务的模型。此后,提出了通用分类模型,如 KNN、SVM [12] 和 RF [15],它们被称为分类器,广泛用于文本分类。最近,XGBoost [16] 和 LightGBM [17] 可以说具有提供出色性能的潜力。对于深度学习模型,TextCNN [18] 在这些模型中的引用次数最多,其中首次引入 CNN 模型来解决文本分类问题。虽然 BERT [19] 不是专门为处理文本分类任务而设计的,但考虑到它在众多文本分类数据集上的有效性,它在设计文本分类模型时已被广泛采用。
浅层学习模型加速了文本分类,提高了准确性,扩大了浅层学习的应用范围。
概率图形模型(PGM)表达了图形中特征之间的条件依赖性,例如贝叶斯网络[96]、隐马尔可夫网络[97]。这些模型是概率论和图论的结合。
图3. NB的结构(左)和HMM的结构(右)。
K 最近邻 (KNN) 算法 [11] 的核心是通过在 k 最近标记样本上找到样本最多的类别来对未标记样本进行分类。它是一个简单的分类器,无需构建模型,可以通过快速获取 k 个最近邻居的过程来降低复杂性。图 4 展示了 KNN 的结构。通过估计中间距离,我们可以找到接近要分类的特定文本的 k 个训练文本。因此,文本可以分为 k 个训练集文本中最常见的类别。然而,由于模型时间/空间复杂度与数据量呈正相关关系,KNN 算法在大规模数据集上花费的时间异常长。为了减少所选特征的数量,Soucy 等人。 [105] 提出了一种没有特征加权的 KNN 算法。它设法找到相关的特征,通过使用特征选择来建立单词的相互依赖性。当数据分布极度不均匀时,KNN 倾向于对数据较多的样本进行分类。提出了邻域加权 K 近邻 (NWKNN) [106] 以提高不平衡语料库的分类性能。它为小类别中的邻居施加了显着的权重,而为大类别中的邻居施加了较小的权重。
图4. k=4的KNN的结构(左)和SVM的结构(右)。不同颜色的结点 代表不同的类别。
Cortes 和 Vapnik 提出支持向量机 (SVM) [107] 来解决模式识别的二元分类问题。 Joachims [12] 首次使用 SVM 方法进行文本分类,将每个文本表示为一个向量。如图 4 所示,基于 SVM 的方法将文本分类任务转化为多个二元分类任务。
在此背景下,SVM在一维输入空间或特征空间构造一个最优超平面,使超平面与两类训练集的距离最大化,从而达到最佳的泛化能力。目标是使类别边界沿垂直于超平面方向的距离最大。等价地,这将导致最低的分类错误率。构造最优超平面可以转化为二次规划问题,求得全局最优解。选择合适的核函数对于保证支持向量机能够处理非线性问题并成为鲁棒的非线性分类器至关重要。为了分析 SVM 算法学习的内容和适合的任务,Joachims [108] 提出了一种理论学习模型,将统计特征与 SVM 的泛化性能相结合,使用定量方法分析特征和收益。 Transductive Support Vector Machine (TSVM) [109] 被提议用于减少特定测试集的错误分类,并使用考虑特定测试集的一般决策函数。它使用先验知识来建立更合适的结构并更快地学习。
决策树 (DT) [110] 是一种受监督的树结构学习方法——反映了分而治之的思想——并且是递归构建的。它学习析取表达式并且对带有噪声的文本具有鲁棒性。如图 5 所示,决策树通常可以分为两个不同的阶段:树构建和树修剪:
然而,它的局限性主要来自于处理爆炸式增长的数据量时效率低下。更具体地说:
图5. DT的结构(左)和RF的结构(右)。蓝色的节点代表决策路线的节点。决策路线的节点。
集成算法旨在聚合多个算法的结果以获得更好的性能和解释。传统的集成算法是引导聚合,例如随机森林 (RF) [15],增强算法,例如 AdaBoost [26] 和 XGBoost [16] 以及堆栈。 Bootstrap 聚合方法训练多个没有强依赖性的分类器,然后聚合它们的结果。例如,RF [15] 由多个树分类器组成,其中所有树都取决于独立采样的随机向量的值(如图 5 所示)。值得注意的是,RF 中的每棵树共享相同的分布。 RF的泛化误差依赖于每棵树的强度和树与树之间的关系,并随着森林中树数的增加而收敛到一个极限。在基于提升的算法中,所有标记数据都使用相同的权重进行训练,以最初获得较弱的分类器。然后根据分类器的先前结果调整数据的权重。训练过程将通过重复这些步骤继续进行,直到达到终止条件。与 bootstrap 和 boosting 算法不同,基于堆栈的算法将数据分解为 n 个部分,并使用 n 个分类器以级联方式计算输入数据——上游分类器的结果将作为输入馈入下游分类器。一旦达到预定义的迭代次数,训练将终止。集成方法可以从多棵树中捕获更多特征。但是,它对短文本帮助不大。受此启发,Bouaziz 等人。 [114] 将数据丰富与 RFs 中的语义结合起来进行短文本分类,以克服上下文信息稀疏和不足的缺陷。在集成算法中,并非所有分类器都学得很好。需要为每个分类器赋予不同的权重。为了区分森林中树木的贡献,Islam 等人。 [115]利用语义感知随机森林(SARF)分类器,选择与同一类特征相似的特征,用于提取特征并产生预测值。
概括。浅层学习方法是机器学习的一种。它从数据中学习,这些数据是对预测值的性能很重要的预定义特征。然而,特征工程是一项艰巨的工作。在训练分类器之前,我们需要收集知识或经验来从原文中提取特征。浅层学习方法基于从原始文本中提取的各种文本特征来训练初始分类器。对于小数据集,在计算复杂度的限制下,浅层学习模型通常比深度学习模型表现出更好的性能。因此,一些研究人员研究了针对数据较少的特定领域的浅层模型设计。
表2. 基于不同模型的基本信息。Trans:Transformer。时间:训练时间
DNNs 由模拟人脑的人工神经网络组成,可以自动从数据中学习高级特征,在语音识别、图像处理和文本理解方面取得了比浅层学习模型更好的效果。应对输入数据集进行分析以对数据进行分类,例如单标签、多标签、无监督、不平衡的数据集。根据数据集的特征,将输入的词向量送入DNN进行训练,直到达到终止条件。训练模型的性能通过下游任务验证,例如情感分类、问答和事件预测。我们在表 2 中展示了多年来的一些 DNN,包括与相应的基本模型、评估指标和实验数据集不同的设计。
如表 2 所示,前馈神经网络和递归神经网络是用于文本分类任务的前两种深度学习方法,与浅层学习模型相比,它们提高了性能。然后,CNN、RNN 和注意机制用于文本分类。许多研究人员通过改进 CNN、RNN 和注意力,或模型融合和多任务方法来提高不同任务的文本分类性能。 Bidirectional Encoder Representations from Transformers (BERT) [19] 的出现,它可以生成上下文词向量,是文本分类和其他 NLP 技术发展的一个重要转折点。许多研究人员研究了基于 BERT 的文本分类模型,该模型在包括文本分类在内的多项 NLP 任务中取得了优于上述模型的性能。此外,一些研究人员研究基于 GNN [6] 的文本分类技术来捕获文本中的结构信息,这是其他方法无法替代的。在这里,我们按结构对 DNN 进行分类,并详细讨论一些具有代表性的模型:
浅层学习模型在每个任务的设计特征上花费大量时间。递归神经网络(ReNN)可以在没有特征设计的情况下自动递归地学习文本的语义和语法树结构,如图 6 所示。我们给出了一个基于 ReNN 的模型的例子:
图6. ReNN的结构(左)和MLP的结构(右)
与浅层学习模型相比,基于 ReNN 的模型提高了性能,并且由于排除了用于不同文本分类任务的特征设计而节省了人工成本。递归自动编码器 (RAE) [29] 用于预测每个输入句子的情感标签分布,并学习多词短语的表示。为了学习每个输入文本的组合向量表示,矩阵向量递归神经网络 (MV-RNN) [31] 引入了 ReNN 模型来学习短语和句子的表示。它允许输入文本的长度和类型不一致。 MV-RNN 为构造的解析树上的每个节点分配一个矩阵和一个向量。此外,递归神经张量网络(RNTN)[33]被提出具有树结构来捕获句子的语义。它输入不同长度的短语,并通过解析树和词向量来表示这些短语。解析树上更高节点的向量由基于相等张量的组合函数估计。对于RNTN,构建文本树的时间复杂度高,在树结构内表达文档之间的关系复杂。随着 DNN 的深度增加,性能通常会得到改善。因此,Irsoy 等人。 [116] 提出了一种深度递归神经网络(DeepReNN),它堆叠了多个递归层。它由二进制解析树构建,并学习语言中不同的组合性观点.
多层感知器(MLP)[140],有时通俗地称为“vanilla”神经网络,是一种简单的神经网络结构,用于自动捕获特征。如图 6 所示,我们展示了一个三层 MLP 模型:它包含一个输入层、一个在所有节点都具有激活函数的隐藏层和一个输出层。
每个节点连接一个特定的权重 wi 。它将每个输入文本视为一个词袋,与浅层学习模型相比,它在许多文本分类基准上都取得了高性能。一些研究小组针对文本分类任务提出了一些基于 MLP 的方法。段落向量(Paragraph-Vec)[35]是最流行和使用最广泛的方法,类似于连续词袋(CBOW)[94]。它通过采用无监督算法获得具有各种输入长度的文本的固定长度特征表示。与CBOW相比,它增加了一个通过矩阵映射到段落向量的段落标记。该模型通过该向量与单词的三个上下文的连接或平均值来预测第四个单词。段落向量可以作为段落主题的记忆,作为段落函数插入到预测分类器中。
循环神经网络 (RNN) 由于通过循环计算捕获长程依赖性而被广泛使用。 RNN 语言模型学习历史信息,考虑适合文本分类任务的所有单词之间的位置信息。我们用一个简单的样本展示了一个用于文本分类的 RNN 模型,如图 7 所示:
为了降低模型的时间复杂度并捕获上下文信息,Liu 等人。 [48] 引入了一个模型来捕捉长文本的语义。它一个一个地解析文本,是一个有偏见的模型,使得后面的输入比前者更有利,并降低了捕获整个文本的语义效率。为了对具有长输入序列的主题标记任务进行建模,提出了 TopicRNN [57]。它通过潜在主题捕获文档中单词的依赖关系,并使用 RNN 捕获局部依赖关系,使用潜在主题模型捕获全局语义依赖关系。虚拟对抗训练(VAT)[141] 是一种适用于半监督学习任务的有用正则化方法。宫户等。 [55] 将对抗性和虚拟对抗性训练应用于文本字段,并将扰动应用于词嵌入而不是原始输入文本。该模型提高了词嵌入的质量,并且在训练过程中不易过拟合。胶囊网络 [142] 使用由一层中的一组神经元组成的胶囊之间的动态路由来捕获特征之间的关系。王等。 [119] 提出了一种用于情感分类任务的具有简单胶囊结构的 RNN-Capsule 模型。
在RNN的反向传播过程中,权重是通过梯度调整的,通过导数的连续乘法计算得到。如果导数非常小,连续相乘可能会导致梯度消失问题。 Long Short-Term Memory (LSTM) [143],RNN 的改进,有效缓解了梯度消失问题。它由一个存储任意时间间隔值的单元和三个控制信息流的门结构组成。门结构包括输入门、遗忘门和输出门。 LSTM分类方法可以更好地捕获上下文特征词之间的联系,利用遗忘门结构过滤无用信息,有利于提高分类器的总捕获能力。 Tree-LSTM [2] 将 LSTM 模型的序列扩展到树结构。对于Tree-LSTM模型,可以通过LSTM遗忘门机制遗忘对结果影响不大的整棵子树。
自然语言推理 (NLI) 通过测量每对句子之间的语义相似性来预测一个文本的含义是否可以从另一个文本中推断出来。为了考虑反方向的其他粒度匹配和匹配,Wang 等人。 [144] 提出了一种名为双边多视角匹配(BiMPM)的 NLI 任务模型。它通过 BiLSTM 编码器对输入句子进行编码。然后,编码后的句子在两个方向上进行匹配。结果由另一个 BiLSTM 层聚合在固定长度的匹配向量中。最后,结果由全连接层评估.
图7. 基于RNN的模型(左)和基于CNN的模型(右)
卷积神经网络 (CNN) 被提出用于图像分类,具有可以提取图片特征的卷积滤波器。与 RNN 不同,CNN 可以同时将不同内核定义的卷积应用于序列的多个块。因此,CNN 用于许多 NLP 任务,包括文本分类。对于文本分类,需要将文本表示为类似于图像表示的向量,并且可以从多个角度过滤文本特征,如图7所示。首先,将输入文本的词向量拼接成矩阵。然后将该矩阵送入卷积层,该层包含多个不同维度的滤波器。最后,卷积层的结果经过池化层,将池化结果拼接起来,得到文本的最终向量表示。类别由最终向量预测。
为了尝试将 CNN 用于文本分类任务,Kim 引入了一种无偏的卷积神经网络模型,称为 TextCNN [18]。它可以通过一层卷积更好地确定最大池化层中的判别短语,并通过保持词向量静态来学习除词向量之外的超参数。仅对标记数据进行训练对于数据驱动的深度模型来说是不够的。因此,一些研究人员考虑利用未标记的数据。约翰逊等人。 [145] 提出了一种基于双视图半监督学习的文本分类 CNN 模型,该模型首先使用未标记的数据训练文本区域的嵌入,然后训练标记数据。 DNN 通常具有更好的性能,但它增加了计算复杂度。受此启发,提出了一种深度金字塔卷积神经网络 (DPCNN) [59],通过提高网络深度来提高计算精度。 DPCNN 比 ResNet [146] 更具体,因为所有的快捷方式都是非常简单的身份映射,没有任何维度匹配的复杂性。
根据文本的最小嵌入单元,嵌入方法分为字符级、词级和句子级嵌入。字符级嵌入可以解决词汇外 (OOV) 词。词级嵌入学习词的句法和语义。此外,句子级嵌入可以捕捉句子之间的关系。受这些启发,Nguyen 等人。 [147] 提出了一种基于字典的深度学习方法,通过构建语义规则和深度 CNN 为字符级嵌入增加词级嵌入的信息。亚当斯等。 [122] 提出了一种称为 MGTC 的字符级 CNN 模型,用于对编写的多语言文本进行分类。 TransCap [148] 被提议将句子级语义表示封装到语义胶囊中并传输文档级知识。
基于 RNN 的模型捕获序列信息以学习输入词之间的依赖关系,而基于 CNN 的模型从卷积核中提取相关特征。因此,一些作品研究了这两种方法的融合。 BLSTM-2DCNN [118] 将双向 LSTM (BiLSTM) 与二维最大池化相结合。它使用 2D 卷积对矩阵的更有意义的信息进行采样,并通过 BiLSTM 更好地理解上下文。此外,薛等人。 [149] 提出 MTNA,BiLSTM 和 CNN 层的组合,以解决方面类别分类和方面术语提取任务。
CNN 和 RNN 在与文本分类相关的任务上提供了出色的结果。然而,这些模型不够直观,可解释性差,尤其是在分类错误方面,由于隐藏数据的不可读性,无法解释。基于注意力的方法成功地用于文本分类。 Bahdanau 等人。 [150]首先提出了一种可用于机器翻译的注意力机制。受此启发,Yang 等人。 [46] 引入了层次化注意力网络 (HAN),通过使用文本的信息量极大的成分来获得更好的可视化效果,如图 8 所示。HAN 包括两个编码器和两个级别的注意力层。注意力机制让模型对特定的输入给予不同的关注。它首先将基本词聚合成句子向量,然后将重要句子向量聚合成文本向量。通过两个attention层次,可以了解到每个词和句子对分类判断的贡献有多大,有利于应用和分析。注意力机制可以提高文本分类的可解释性,使其受到欢迎。还有一些其他基于注意力的作品。
图8. 分层注意网络
LSTMN [50] 被提议从左到右逐步处理文本,并通过记忆和注意力进行表面推理。王等。 [151] 通过探索方面和输入句子之间的联系,提出了一种基于注意力的 LSTM 神经网络。 BI-Attention [125] 被提议用于跨语言文本分类以捕获双语长距离依赖关系。胡等。 [152] 提出了一种基于类别属性的注意力机制,用于解决包含少射电荷的各种电荷数量不平衡问题。
Self-attention [153] 通过在句子之间构建 K、Q 和 V 矩阵来捕获句子中单词的权重分布,这些矩阵可以捕获对文本分类的长期依赖性。我们举一个self-attention的例子,如图9所示。每个输入词向量ai可以表示为三个n维向量,包括qi、ki和vi。经过self-attention后,输出向量bi可以表示为
。可以并行计算所有输出向量。林等。 [130] 使用源标记自注意力来探索句子表示任务中每个标记对整个句子的权重。为了捕获远程依赖关系,双向块自注意网络 (Bi-BloSAN) [133] 使用块内自注意网络 (SAN) 对按序列分割的每个块和块间 SAN 输出.
图9. 一个自我注意的例子
基于方面的情感分析 (ABSA) 将文本分解为多个方面,并为每个方面分配一个情感极性。情绪极性可分为积极、中性和消极两种类型。提出了一些基于注意力的模型来识别针对基于方面的情感任务的特定方面的细粒度意见极性。 ATAE-LSTM [151] 可以通过注意机制根据输入集中在每个句子的不同部分。 MGAN [80] 提出了一种细粒度的注意机制和粗粒度的注意机制来学习上下文和方面之间的词级交互。为了捕捉 QA 任务的每个问题和候选答案之间的复杂语义关系,Tan 等人. [154] 引入 CNN 和 RNN,并通过使用受问题上下文影响的简单单向注意机制来生成答案嵌入。注意力捕捉问题和答案嵌入之间的依赖关系。提取式 QA 可以看作是文本分类任务。它输入一个问题和多个候选答案,并对每个候选答案进行分类以识别正确答案。此外,具有双向注意机制的 AP-BILSTM [127] 可以学习问题和每个候选答案之间的权重,以获得每个候选答案对问题的重要性。
预训练语言模型可有效学习全局语义表示并显着提升 NLP 任务,包括文本分类。它一般采用无监督的方法自动挖掘语义知识,然后构建预训练目标,让机器学习理解语义。如图 10 所示,我们给出了 ELMo [66]、OpenAI GPT [155] 和 BERT [19] 之间模型架构的差异。 ELMo [66] 是一种深度语境化的词表示模型,很容易集成到模型中。它可以对单词的复杂特征进行建模,并为各种语言上下文学习不同的表示。它使用双向 LSTM 根据上下文词学习每个词嵌入。 GPT [155] 采用有监督的微调和无监督的预训练来学习一般表示,这些表示对许多 NLP 任务的适应性有限。此外,目标任务的领域不需要与未标记的数据集相似。 GPT算法的训练过程通常包括两个阶段。首先,神经网络模型的初始参数是通过未标记数据集上的建模目标学习的。然后我们可以使用相应的监督目标来适应目标任务的这些参数。谷歌提出的 BERT 模型 [19] 通过联合调节每一层的左右上下文来预训练未标记文本的深度双向表示,显着提高了 NLP 任务(包括文本分类)的性能。通过仅添加一个额外的输出层来为多个 NLP 任务(例如 SA、QA 和机器翻译)构建模型来对其进行微调。与这三种模型相比,ELMo 是使用 LSTM 的基于特征的方法,而 BERT 和 OpenAI GPT 是使用 Transformer 的微调方法。此外,ELMo 和 BERT 是双向训练模型,而 OpenAI GPT 是从左到右训练的。因此,BERT 得到了更好的结果,它结合了 ELMo 和 OpenAI GPT 的优点。
图10. 预训练模型架构的差异[19],包括BERT、OpenAI GPT和ELMo。Ei代表第i个输入的嵌入。Trm代表变换器块。Ti代表第i个输入的预测标签。
基于 Transformer 的模型可以在不考虑适用于大规模数据集的顺序信息的情况下进行并行计算,使其在 NLP 任务中很受欢迎。因此,一些其他作品用于文本分类任务并获得出色的性能。 RoBERTa [87] 采用动态掩蔽方法,每次生成掩蔽模式,并将序列输入模型。它使用更多数据进行更长时间的预训练,并估计各种基本超参数的影响和训练数据的大小。 ALBERT [89] 使用双参数简化方案。一般来说,这些方法采用无监督目标函数进行预训练,包括下一句预测、掩码技术和排列。这些基于单词预测的目标函数展示了学习单词依赖和语义结构的强大能力[156]。 XLNet [85] 是一种广义自回归预训练方法。它最大化整个因式分解顺序排列的预期可能性,以学习双向上下文。此外,它可以通过自回归公式克服 BERT 的弱点,并将 Transformer-XL [157] 的思想整合到预训练中。
像 CNN 这样的 DNN 模型在规则结构上表现出色,而不是在任意结构图上。一些研究人员研究了如何在任意结构化的图上进行扩展 [158] [159]。随着图神经网络 (GNN) 的日益受到关注,基于 GNN 的模型通过对句子的句法结构进行编码,在语义角色标记任务 [160]、关系分类任务 [161] 和机器翻译任务 [162] 中获得了出色的性能。它将文本分类转化为图节点分类任务。我们展示了一个用于文本分类的 GCN 模型,其中包含四个输入文本,如图 11 所示。首先,将四个输入文本和文本中的单词(定义为节点)构造成图结构。图节点由粗黑边连接,表示文档-词边和词-词边。每个词-词边的权重通常表示它们在语料库中的共现频率。然后,单词和文本通过隐藏层表示。最后,可以通过图形预测所有输入文本的标签。
基于 GNN 的模型可以学习句子的句法结构,这使得一些研究人员研究使用 GNN 进行文本分类。 DGCNN [68] 是一种将文本转换为词图的图形 CNN,具有使用 CNN 模型学习不同级别语义的优势。姚等。 [6] 提出了文本图卷积网络(TextGCN),它为整个数据集构建异构词文本图并捕获全局词共现信息。为了使基于 GNN 的模型能够支持在线测试,Huang 等人。 [137] 为每个具有全局参数共享的文本构建图形,而不是语料库级别的图形结构,以帮助保存全局信息并减轻负担。 TextING [163] 为每个文档构建单独的图形,并通过 GNN 学习文本级单词交互,以有效地为新文本中的晦涩单词生成嵌入。
图 11. 基于 GCN 的模型。黑色粗体边缘是图中的文档-单词边缘和单词-单词边缘。
图注意网络 (GAT) [164] 通过关注其邻居来使用屏蔽的自注意层。因此,提出了一些基于 GAT 的模型来计算每个节点的隐藏表示。具有双层注意机制的异构图注意网络(HGAT)[165]学习当前节点中不同相邻节点和节点类型的重要性。该模型在图上传播信息并捕获关系以解决半监督短文本分类的语义稀疏性问题。 MAGNET [139] 被提出来捕获基于 GAT 的标签之间的相关性,它学习标签之间的关键依赖关系并通过特征矩阵和相关矩阵生成分类器。
事件预测(EP)可分为生成事件预测和选择性事件预测(也称为脚本事件预测)。 EP,指本次评论中的脚本事件预测,根据现有事件上下文推断后续事件。与其他文本分类任务不同,EP 中的文本由一系列连续的子事件组成。提取此类子事件之间关系的特征至关重要。 SGNN [76] 被提议通过构建事件图来更好地利用事件网络信息来对事件交互进行建模并学习更好的事件表示。该模型充分利用了 EP 任务的密集事件连接。
除了上述所有模型外,还有一些其他个别模型。在这里,我们介绍一些令人兴奋的模型。
概括。深度学习由复杂度更高的神经网络中的多个隐藏层组成,可以在非结构化数据上进行训练。深度学习架构可以直接从输入中学习特征表示,无需太多人工干预和先验知识。然而,深度学习技术是一种数据驱动的方法,通常需要海量数据才能实现高性能。虽然基于自我注意的模型可以为 DNN 带来一些单词间的可解释性,但与浅层模型相比不足以解释它为何以及如何运作良好。
表3. 数据集的汇总统计。C:目标类的数量。L: 平均句子长度。N: 数据集大小。
用于文本分类的标记数据集的可用性已成为该研究领域快速发展的主要推动力。在本节中,我们从领域方面总结了这些数据集的特征,并在表 3 中给出了概述,包括类别数量、平均句子长度、每个数据集的大小、相关论文、访问的数据源和应用程序。
在评估文本分类模型方面,aAcuracy和F1 分数是评估文本分类方法最多的指标。后来,随着分类任务难度的增加或某些特定任务的存在,评估指标得到了改进。例如,P@K、Micro-F1等评估指标用于评估多标签文本分类性能,而MRR通常用于评估QA任务的性能。在表 4 中,我们给出了评估指标中使用的符号。
表4. 评价指标中使用的记号
单标签文本分类将文本划分为最有可能应用于 NLP 任务的类别之一,例如 QA、SA 和对话系统 [9]。对于单标签文本分类,一篇文本只属于一个目录,可以不考虑标签之间的关系。这里我们介绍一些用于单标签文本分类任务的评估指标。
当Accuracy、F1和Recall值达到1时,就会得到想要的结果,反之,当这些值都变成0时,得到最差的结果。对于多类分类问题,可以分别计算每个类的precision和recall值,进而分析个体和整体的表现。
与单标签文本分类相比,多标签文本分类将文本划分为多个类别标签,类别标签的数量是可变的。这些指标是为单标签文本分类而设计的,不适用于多标签任务。因此,有一些指标是为多标签文本分类而设计的。
除了上述评价指标外,还有一些基于等级的评价指标用于 极端多标签分类任务,包括P@K和NDCG@K。
在本节中,我们将主要模型在分类准确率评估的经典数据集上的性能制成表格,如表 5 所示,包括 MR、SST-2、IMDB、Yelp.P、Yelp.F、Amazon.F、 20NG、AG、DBpedia 和 SNLI。我们可以看到,基于 BERT 的模型在大多数数据集上都获得了更好的结果,这意味着如果你需要实现文本分类任务,你可以首先尝试基于 BERT 的模型,除了 MR 和 20NG,它们还没有在基于 BERT 的模型上进行过实验。 RNN-Capsule [119] 在 MR 上获得最好的结果,BLSTM-2DCNN [118] 在 20NG 上获得最好的结果。
表5. 基于深度学习的文本分类模型在主要数据集上的准确度,按分类准确度评估(以出版年份为标准)。粗体字是最准确的。
文本分类——作为高效的信息检索和挖掘技术——在管理文本数据中起着至关重要的作用。它利用自然语言处理、数据挖掘、机器学习等技术,自动分类和发现不同的文本类型。文本分类以多种类型的文本作为输入,预训练模型将文本表示为一个向量。然后将向量送入DNN进行训练,直到达到终止条件,最后由下游任务验证训练模型的性能。现有模型已经显示出它们在文本分类中的实用性,但仍有许多可能的改进有待探索。
虽然一些新的文本分类模型反复刷了大部分分类任务的准确率指标,但并不能说明模型是否像人类一样从语义层面“理解”了文本。而且,随着噪声样本的出现,小样本噪声可能导致决策置信度发生大幅变化,甚至导致决策逆转。因此,模型的语义表示能力和鲁棒性需要在实践中得到证明。此外,以词向量为代表的预训练语义表示模型往往可以提高下游NLP任务的性能。现有关于上下文无关词向量迁移策略的研究还比较初步。因此,我们从数据、模型和性能的角度得出结论,文本分类主要面临以下挑战。
对于文本分类任务,无论是浅层学习还是深度学习方法,数据对于模型性能都是必不可少的。主要研究的文本数据包括多章、短文本、跨语言、多标签、少样本文本。针对这些数据的特点,现有的技术挑战如下:
大多数现有的浅层和深度学习模型结构都被尝试用于文本分类,包括集成方法。 BERT 学习一种语言表示,可用于微调许多 NLP 任务。主要方法是增加数据,提高计算能力,设计训练程序以获得更好的结果。如何在数据和计算资源与预测性能之间进行权衡,值得研究。
浅层模型和深层模型在大多数文本分类任务中都能取得较好的性能,但其结果的抗干扰能力有待提高。如何实现深度模型的解释也是一个技术挑战。
本文主要介绍了现有的文本分类任务模型,从浅层学习到深度学习。首先,我们用一个汇总表介绍了一些主要的浅层学习模型和深度学习模型。浅层模型主要通过改进特征提取方案和分类器设计来提高文本分类性能。相比之下,深度学习模型通过改进表示学习方法、模型结构以及额外的数据和知识来提高性能。然后,我们介绍了带有汇总表和单标签和多标签任务评估指标的数据集。此外,我们在经典文本分类数据集的不同应用下,在汇总表中给出了领先模型的定量结果。最后,我们总结了文本分类未来可能的研究挑战。
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。