文本分类算法综述_文本分类器算法有哪些

作者：笔触狂放9 | 2024-07-08 11:30:41

踩

文本分类器算法有哪些

最近在阅读Kowsari, Meimandi J , Heidarysafa等人的《Text Classification Algorithms: A Survey》一文，在此半翻译半总结地总结一下笔记。

1.序章

文章概述了文本特征提取、降维方法、现有的算法与技术（模型）、评估方法。也简述了每种技术的局限性以及其在实际问题中的应用。
大多数文本分类和文档分类的过程都可以分为四个阶段：特征提取、维度降低、类别选择、评估。序章简述了文本分类系统的组成部分：首先是特征提取，再者是维度降低（可选），其次是分类算法选择（最重要的），最后是评估方法（两部分：预测测试数据集+评估模型）。
初始输入由一些原始的文本数据集组成。通常来说，文本数据集包含了文档中的文本序列，每个序列包含N个数据点（文本），数据点含有S个句子，而每个句子有包含由lw个字符组成的Ws个单词。每个数据点都由一组K个不同的离散值来标记。（1 2 ···）。

1.1.特征提取

文本和文档都是非结构化的数据集，但是在使用分类器中的数学模型时，这些非结构化的文本序列必须修改为结构化的特征空间，并且数据集需要进行数据清洗来去除不必要的字符和单词，即文本预处理（会在Section 2中进行讲解）。特征提取的常用技术为：TF-IDF、TF、词向量Word2Vec、全局词向量GloVe（以及之后的Fastext、ELMO、BERT、XLNET等）。

1.2.维度降低

一个常见的问题，由于文本或文档数据集经常包含许多独一无二的单词，数据预处理过程可能会因为长时间运行和内存复杂性而延迟。对这个问题常见的解决方法是开发简单的算法，然而简单的算法并不能适用于所有的数据集（情况），所以研究人员提出使用维度降低的方法。常用的降维操作：主成分分析（PCA）、线性判别分析（LDA）、非负矩阵分解（NMF）。对于无监督特征提取中降维的新技术：随机投影、自编码、T分布随机邻接嵌入（T-SNE）

1.3.分类器技术

在Section4简述了常见的文本分类方法：传统的文本分类器-Rocchio分类、集成学习技术-Boosting and Bagging、逻辑回归（LR）、朴素贝叶斯分类器（NBC）；使用了非参数技术的K近邻分类算法（KNN），支持向量机（SVM）；基于树的分类器，比如：决策树和随机森林，也常用于文档分类中；近年来，图分类也被认为是一种分类任务，比如：条件随机域（CRFs）；目前，深度学习技术也用于分类任务中。

1.4.评估

在Section 5我们简述了评估分类算法的方法：FβScore、马修斯相关系数 (MCC)、ROC、AUC。

2.文本预处理

文本预处理。本节介绍了文本数据清洗的方法。文本数据清洗后，可以消除隐含的噪声，允许信息特征化。讨论了两种常见的文本特征提取的方法：加权词、词嵌入。

本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】