当前位置:   article > 正文

自然语言处理—文本分类综述/什么是文本分类

文本分类

最近在学习文本分类,读了很多博主的文章,要么已经严重过时(还在一个劲介绍SVM、贝叶斯),要么就是机器翻译的别人的英文论文,几乎看遍全文,竟然没有一篇能看的综述,花了一个月时间,参考了很多文献,特此写下此文。

思维导图

https://www.processon.com/mindmap/61888043e401fd453a21e978

文本分类简介

文本分类(Text Classification 或 Text Categorization,TC),又称自动文本分类(Automatic Text Categorization),是指计算机将载有信息的一篇文本映射到预先给定的某一类别或某几类别主题的过程,实现这一过程的算法模型叫做分类器。文本分类问题算是自然语言处理领域中一个非常经典的问题。

根据预定义的类别不同,文本分类分两种:二分类多分类,多分类可以通过二分类来实现。
从文本的标注类别上来讲,文本分类又可以分为单标签多标签,因为很多文本同时可以关联到多个类别。

文本分类词云一览

这张图真的是太棒了:

image.png

文本分类历史

文本分类最初是通过专家规则(Pattern)进行分类,利用知识工程建立专家系统,这样做的好处是比较直观地解决了问题,但费时费力,覆盖的范围和准确率都有限。
后来伴随着统计学习方法的发展,特别是 90 年代后互联网在线文本数量增长和机器学习学科的兴起,逐渐形成了一套解决大规模文本分类问题的经典做法,也即特征工程 + 浅层分类模型。又分为传统机器学习方法深度学习文本分类方法

文本分类应用场景

文本分类的主流应用场景有:

  • 情感分析:sentiment analysis ( SA)
  • 话题标记:topic labeling(TL)
  • 新闻分类:news classification (NC)
  • 问答系统:question answering(QA)
  • 对话行为分类:dialog act classification (DAC)
  • 自然语言推理:natural language inference (NLD),
  • 关系分类:relation classification (RC)
  • 事件预测:event prediction (EP)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/501881

推荐阅读
相关标签