当前位置:   article > 正文

短文本分类概述_短文本类材料包含哪些

短文本类材料包含哪些

Table of Contents

定义

特点及难点

分类方法(转 有修改)

-传统文本分类方法

-深度学习文本分类方法

评价指标


定义

短文本通常是指长度比较短,一般不超过160个字符的文本形式,如微博、聊天信息、新闻主题、观点评论、问题文本、手机短信、文献摘要等。短文本分类任务的目的是自动对用户输入的短文本进行处理,得到有价值的输出。在chatbot的构建过程中,对用户的意图进行识别是其中比较重要的一个部分,而意图识别的核心问题是如何对短文本进行分类。

特点及难点

  1. 稀疏性:短文本的内容较短,通常只包含几个到十几个有实际意义的词语,难以抽取有效的特征词。
  2. 实时性:短文本更新速度快、易于扩散。
  3. 海量性:短文本大量存在于人们的生活中,由于短文本的及时更新和快速传播,使互联网中积累了海量的短文本数据,这要求对于短文本的处理计算必须具有很高的速度。
  4. 不规范性:短文本表述简洁,简称、不规范用语以及网络流行用语被广泛使用,使文本噪音较大。如“天朝”-网络用语,“杯具”-谐音用法,“666”-新词汇。

短文本的特点使文本分类面临以下难点:

  1. 短文本特征词少,用传统的基于词条的向量空间模型表示,会造成向量空间的稀疏。另外,词频、词共现频率等信息不能得到充分利用,会丢失掉了词语间潜在的语义关联关系。
  2. 短文本的不规范性,使文本中出现不规则特征词和分词词典无法识别的未登录词,导致传统的文本预处理和文本表示方法不够准确。
  3. 短文本数据的规模巨大,在分类算法的选择上往往更倾向于非惰性的学习方法,避免造成过高的时间复杂度。

因此,短文本分类一般在预处理、文本表示、分类器的构建等环节中进行优化和改进,以提高分类效果和精度。

分类方法( 有修改)

-传统文本分类方法

伴随着统计学习方法的发展,特别是90年代后互联网在线文本数量增长和机器学习学科的兴起,逐渐形成了一套解决大规模文本分类问题的经典方法,整个文本分类问题就拆分成了特征工程和分类器两部分。

1.1 特征工程<

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/999623
推荐阅读
相关标签
  

闽ICP备14008679号