赞
踩
应用场景:我们在和智能产品(如智能音箱,服务机器人,智能电话,车机,手机助手等)对话时。产生的一般都是口语化的短文本。那么如何对短文本进行分类来识别用户意图呢。下面介绍一下集中常用的文本分类技术
1.几种文本分类算法的对比
文本分类实质上是一种分类技术在文本领域的应用。时下最时髦的做法便是用神经网络,比如用CNN进行文本分类。据说会比传统机器学习算法的效果会好。但是训练神经网络需要充足的语料来训练,否则就会出现过拟合的通病。网络中的参数会和真实值相差甚远。因此,短文本如果用CNN这种网络显得有点杀鸡用牛刀的感觉。
在神经网络出现之前,svm(支持向量机)在分类方面称得上是独领风骚。它最重要的一个优点是在小样本训练集上的分类效果会比其他算法好很多。这者特点使它得到了广泛的应用。
2.textGrocery
TextGrocery是一个基于LibLinear和结巴分词的短文本分类工具,特点是高效易用,同时支持中文和英文语料。地址如下https://textgrocery.readthedocs.io/zh/latest/index.html。其中liblinear是libsvm的线性核的改进版本,专门适用于百万数据量的分类。是目前比较好的用于短文本分类的算法
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。