赞
踩
在进行机器学习时,经常会有这样的困惑:1.选择假设模型;2.当学习结果不好时,该如何快速分析,决定下一步做什么,比如增加样本数量,还是增加特征数量等。吴老师给了一些很实用的建议。
一、模型选择和训练、验证、测试集
当选择模型时,或者调整一些超参数时,需要把数据集分为3部分:训练数据集,即用来训练模型;验证数据集,不参与训练模型;测试数据集,不参与训练模型。
在这里,验证数据集是非常有必要的。从狭义上来说,它不参与模型训练,不影响具体模型的参数;但它参与了模型的选择或者超参数的调整,从广义上来说,间接影响了最终的训练模型,是广义意义上的训练数据集。而测试数据集,没有参与训练的任何环节。
因此,只有当最终的训练数据集精度、验证数据集精度与测试数据集精度均较高时,才能确保学习结果好。
二、高偏差问题与高方差问题区分
1.欠拟合,导致高偏差问题。即训练误差很大,验证误差也很大。
2.过拟合,导致高方差问题。即训练误差很小,但验证误差很大。
3.正则化惩罚系数与高偏差、高方差问题关系:当惩罚系数很大时,参数均很小,造成假设模型很简单,易出现欠拟合,即高偏差问题。当惩罚系数很小时,每个参数值较大,即模型较复杂,易导致过拟合,即高方差问题。
4.一些实用方法:
高偏差问题(欠拟合):尝试获取更多的特征,减小惩罚系数等。
高方差问题(过拟合):尝试增大惩罚系数,增多训练样本,减少特征数等。
三、学习曲线
概念:随着训练样本的逐渐增多,算法训练出的模型的表现能力。
作用:查看模型的学习效果;通过学习曲线可以清晰的看出模型对数据的过拟合和欠拟合。
通过分析,确定是过拟合还是欠拟合,再决定下一步做什么。
四、精确率、召回率与F度量
精确率(Precision)和召回率(Recall)是信息检索,人工智能,和搜索引擎的设计中很重要的评价指标。
这里是引用
P(Precision) = TP / (TP + FP);含义:结果中,真正的正样本占所有预测的正样本(真正的正样本与假的正样本之和)的比例。
R(Recall) = TP / (TP + FN);含义:结果中,真正的正样本占应该被预测到的正样本(预测到的正样本与被判定为负样本之和)的比例。
精确率和召回率是互相影响的,理想情况下肯定是做到两者都高,但是一般情况下准确率高、召回率就低,召回率低、准确率高,当然如果两者都低,那是什么地方出问题了。
F度量(F-measure),结合精确率和召回率。
F = 2PR / (P+R)。其中,定义 1/F = 1/P + 1/R。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。