赞
踩
Table of Contents
短文本通常是指长度比较短,一般不超过160个字符的文本形式,如微博、聊天信息、新闻主题、观点评论、问题文本、手机短信、文献摘要等。短文本分类任务的目的是自动对用户输入的短文本进行处理,得到有价值的输出。在chatbot的构建过程中,对用户的意图进行识别是其中比较重要的一个部分,而意图识别的核心问题是如何对短文本进行分类。
短文本的特点使文本分类面临以下难点:
因此,短文本分类一般在预处理、文本表示、分类器的构建等环节中进行优化和改进,以提高分类效果和精度。
伴随着统计学习方法的发展,特别是90年代后互联网在线文本数量增长和机器学习学科的兴起,逐渐形成了一套解决大规模文本分类问题的经典方法,整个文本分类问题就拆分成了特征工程和分类器两部分。
1.1 特征工程<
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。