赞
踩
1、语料(数据)的获取
2、数据预处理
1) 分词
2) 除去停用词
3、特征提取
TF-IDF:https://blog.csdn.net/asialee_bird/article/details/81486700
中文:词频-逆向文件频率。
应用定位:一种用于信息检索与文本挖掘的常用加权技术。
主要思想:如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。