赞
踩
处理某个特定的任务,以大量的经验为基础。
生活我们解决问题基本是靠发现一件事物的规律,然后来预测它未来呈现的结果
在机器学习中,我们用某一个模型来预测事物的属性。
样本:分为有标签和无标签
上图为无标签样本,有4个
下图的“好瓜”为标签,整体为有标签样本,有14个,一行为一个
1.尽可能保持数据分布的一致性。避免因数据划分过程引入的额外偏差而对最终结果产生影 响。在分类任务中,保留类别比例的采样方法称为“分层采样”。
2.采用若干次随机划分避免单次使用留出法的不稳定性
红色代表分类错误,错误率为3/17,精度就为14/17
f(x)为损失函数
增加训练数据:更多的样本能够让模型学习到更多更有效的特征,减小噪声的影响。
降维:即丢弃一些不能帮助我们正确预测的特征。例如序号等
.正则化(regularization)的技术,保留所有的特征,但是减少参数的大小(magnitude),它可以改善或者减少过拟合问题。
集成学习方法:集成学习是把多个模型集成在一起,来降低单一模型的过拟合风险。
减小正则化系数:正则化是用来防止过拟合的,但当模型出现欠拟合现象时,则需要有针对性地减小正则化系数。
奥卡姆剃刀原理:“如无必要,勿增实体”,即“简单有效原理”
样本每组被分为8份(按特征分),例如样本一先选择含糖率作为测试集,样本2就选择其他的作为测试集,直到全部选择完当作测试集。
TP(True positive,真正例)——将正类预测为正类数。
FP(False postive,假正例)——将反类预测为正类数。
TN(True negative,真反例)——将反类预测为反类数。
FN(False negative,假反例)——将正类预测为反类数。
先看训练集的预测结果,再看测试集
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。