赞
踩
最近在学习文本分类,读了很多博主的文章,要么已经严重过时(还在一个劲介绍SVM、贝叶斯),要么就是机器翻译的别人的英文论文,几乎看遍全文,竟然没有一篇能看的综述,花了一个月时间,参考了很多文献,特此写下此文。
https://www.processon.com/mindmap/61888043e401fd453a21e978
文本分类(Text Classification 或 Text Categorization,TC),又称自动文本分类(Automatic Text Categorization),是指计算机将载有信息的一篇文本映射到预先给定的某一类别或某几类别主题的过程,实现这一过程的算法模型叫做分类器。文本分类问题算是自然语言处理领域中一个非常经典的问题。
根据预定义的类别不同,文本分类分两种:二分类和多分类,多分类可以通过二分类来实现。
从文本的标注类别上来讲,文本分类又可以分为单标签和多标签,因为很多文本同时可以关联到多个类别。
这张图真的是太棒了:
文本分类最初是通过专家规则(Pattern)进行分类,利用知识工程建立专家系统,这样做的好处是比较直观地解决了问题,但费时费力,覆盖的范围和准确率都有限。
后来伴随着统计学习方法的发展,特别是 90 年代后互联网在线文本数量增长和机器学习学科的兴起,逐渐形成了一套解决大规模文本分类问题的经典做法,也即特征工程 + 浅层分类模型。又分为传统机器学习方法和深度学习文本分类方法。
文本分类的主流应用场景有:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。