赞
踩
sklearn转换器和估计器(estimator)
1.转换器 - 特征工程的父类
实例化(实例化是一个转换器类(Transform))
调用fit_transform
标准化 (x - mean) / std
fit_transform()
fit() 计算每一列的平均值、标准差
transform() (x - mean) / std 进行最终的转换
2.估计器(sklearn机器学习算法的实现)
估计器(estimator)
1.实例化一个estimator
2.estimator.fit(x_train,y_train) 计算每一列的平均值、标准差
– 调用完后,模型生成
3.模型评估:
1) 直接对比真实值和预测值
y_predict = estimator.predict(x_test)
y_test == y_predict
2) 计算准确率
estimator.score(x_test, y_test)
1.k-近邻算法(KNN-K Nearest Neighbor)
核心思想:根据你的邻居来判断出你的类别
k的取值:过小容易收到异常值的影响;过大容易收到样本不均衡的影响
应用场景:样本量小的时候
开发步骤:
1.获取数据
2.划分数据集:训练集特征值 测试集特征值 训练集目标值 测试集目标值
3.标准化
4.knn预估器
5.参数准备
6.加入网格搜索和交叉验证
7模型评估
2.朴素贝叶斯算法 -native bayes(朴素+贝叶斯)
概率分类算法
应用场景:文本分类
优点:对缺失数据不太敏感,算法也比较简单,常用与文本分类,分类准确定高,速度快
缺点:由于使用了样本属性独立性的假设,所以特征属性有关联时效果不好
拉普拉斯平滑系数:为了解决零概率的问题,用加1的方法估计没有出现过的现象的概率
开发步骤:
1.获取数据
2.对数据进行分割处理(训练集特征值、测试集特征值、训练集目标值、测试集目标值)
3.特征工程–标准化、分词-特征工程提取
4.朴素贝利叶预估器流程
5.模型评估
1)直接对比预测结果和测试集目标值
2)对比测试集特征值和测试集目标值,算出准确率
3.决策树
信息增益 = 信息熵 - 条件熵
如何高效的决策:特征的先后顺序
优点:可视化 – 可解释能力强
缺点:容易产生过拟合
4.随机森林
是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别众数而定
随机:两个随机
训练集随机: – N个样本中随机有放回的抽样N个
bootstrap 随机有放回抽样
特征随机 – 从M个特征中随机抽取m个特征
M >> m
降维
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。