赞
踩
目录
一、数据清洗
1.导入必要的库
2.创建停用词表
3. 对句子进行中文分词
4. 给出文档路径
5.将结果输出保存并且打印处理过程
二、转换数据格式
1.将处理完毕的数据读取查看
2.创建data
3. 将评论数据按行写入data中的“评论”一列
4.读取评分数据
5.将评分数据以逗号形式分割
6.将评分数据作为label按行写入data中的“评分”一列
7.查看数据,并将数据保存为CSV格式
三、机器学习部分
1.导入必要的第三方库
2.读取数据
3.划分数据集
4.可选操作,引入停用词,当作参数传入特征提取器
5.TfidfVectorizer()和 CountVectorizer()分别进行特征提取
6.使用TF_IDF提取的向量当作特征传入逻辑回归模型
7.使用ConutVector转化的向量作为特征传入逻辑回归模型
四、使用其他的机器学习模型进行拟合数据进行测试
1.KNN模型
2.Random Forest Classifier(随机森林)模型
3.Decision Tree Classifier(决策树)模型
4.贝叶斯模型
5.SVM(支持向量机)模型
总结
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。