赞
踩
这学期选修了王晓茹老师的数据挖掘课程,老师让我们组队完成一个基于机器学习文本分类的项目。我打算用此系列博客来记录项目实践过程中的一些收获,问题,想法。希望以此来提升和巩固自己技术。
我们要做的是对知乎问题进行分类。数据获取的主要思想是爬取知乎某些话题下的所有问题相关数据(标题,问题描述等),并将对应的话题作为标签进行存储。之后就是对数据进行预处理,模型训练和模型预测。