赞
踩
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮
1.获取数据集:
(load_*(小数据)和ffetch_*(大数据)方法)
2.数据基本处理 :
2.1 去除异常值
空值:1.可以进行直接去掉(dropna),此数据对整个模型的训练评估影响较小;
2.将此特征值的平均数作为数据进行替换,此数据对模型的训练评估较大;
异常值:方法同空值的处理;
特殊字符:若数据集中出现“?”、“!”等特殊字符,利用replace方法将特殊字符替换为空值。
2.2 根据实际的模型需求,提取特征值
2.2.1 在实际的工作中,由于提供的数据集的可能没有直接提供需求的训练模型所需要的特征值(例如:在车辆的动力学模型中,横摆角速度需要利用函数公式进行推到出),
因此,可以根据数据集中已经有的特征值,利用pandas中的(Dataframe、Series)提取相关数据,进行计算(在pandas或numpy计算,注意数据类型的转换)得到实际需求的特征值。
2.2.2 将提取的特征值添加到数据集中,构建新的数据集。
2.2.3 根据模型训练需求,筛选符合实际训练需求的数据集。
2.3 确定特征值和目标值
根据训练模型的需求,在Dataframe结构下,筛选数据,构建新的数据集。
2.4 分割数据
将数据集分割为训练集和测试集:
训练集可以再分为训练集和验证集,其中训练集用来训练模型,验证集是边训练边验证。
3 特征工程
如果实际工作训练的模型中,有需要计算距离这个参数,需要思考一下是否需要将数据集标准化
4 机器学习
4.1 实例化KNN对象:KNeighborsClassifier()
4.2 网格搜索: GridSearchCV()
这里的K值取奇数(如果是偶数,在训练模型中,可能会出现同时距离相同数量的目标值,无法选择。)
4.3 模型训练
提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。