当前位置:   article > 正文

文本分类算法综述_文本分类器算法有哪些

文本分类器算法有哪些

最近在阅读Kowsari, Meimandi J , Heidarysafa等人的 《Text Classification Algorithms: A Survey》一文,在此半翻译半总结地总结一下笔记。

1.序章

文章概述了文本特征提取、降维方法、现有的算法与技术(模型)、评估方法。也简述了每种技术的局限性以及其在实际问题中的应用。
大多数文本分类和文档分类的过程都可以分为四个阶段:特征提取、维度降低、类别选择、评估。序章简述了文本分类系统的组成部分:首先是特征提取,再者是维度降低(可选),其次是分类算法选择(最重要的),最后是评估方法(两部分:预测测试数据集+评估模型)。
初始输入由一些原始的文本数据集组成。通常来说,文本数据集包含了文档中的文本序列,每个序列包含N个数据点(文本),数据点含有S个句子,而每个句子有包含由lw个字符组成的Ws个单词。每个数据点都由一组K个不同的离散值来标记。(1 2 ···)。

1.1.特征提取

文本和文档都是非结构化的数据集,但是在使用分类器中的数学模型时,这些非结构化的文本序列必须修改为结构化的特征空间,并且数据集需要进行数据清洗来去除不必要的字符和单词,即文本预处理(会在Section 2中进行讲解)。特征提取的常用技术为:TF-IDF、TF、词向量Word2Vec、全局词向量GloVe(以及之后的Fastext、ELMO、BERT、XLNET等)。

1.2.维度降低

一个常见的问题,由于文本或文档数据集经常包含许多独一无二的单词,数据预处理过程可能会因为长时间运行和内存复杂性而延迟。对这个问题常见的解决方法是开发简单的算法,然而简单的算法并不能适用于所有的数据集(情况),所以研究人员提出使用维度降低的方法。常用的降维操作:主成分分析(PCA)、线性判别分析(LDA)、非负矩阵分解(NMF)。对于无监督特征提取中降维的新技术:随机投影、自编码、T分布随机邻接嵌入(T-SNE)

1.3.分类器技术

在Section4简述了常见的文本分类方法:传统的文本分类器-Rocchio分类、集成学习技术-Boosting and Bagging、逻辑回归(LR)、朴素贝叶斯分类器(NBC);使用了非参数技术的K近邻分类算法(KNN),支持向量机(SVM);基于树的分类器,比如:决策树和随机森林,也常用于文档分类中;近年来,图分类也被认为是一种分类任务,比如:条件随机域(CRFs);目前,深度学习技术也用于分类任务中。

1.4.评估

在Section 5我们简述了评估分类算法的方法:FβScore、马修斯相关系数 (MCC)、ROC、AUC。

2.文本预处理

文本预处理。本节介绍了文本数据清洗的方法。文本数据清洗后,可以消除隐含的噪声,允许信息特征化。讨论了两种常见的文本特征提取的方法:加权词、词嵌入。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/798595
推荐阅读
相关标签
  

闽ICP备14008679号