赞
踩
你选择了一个简单的模型,比如一个直线,却想拟合类似抛物线分布的数据。
你选择了一个复杂的模型,比如一个四次多项式,想拟合类似抛物线的数量少的样本。
偏差(bias)描述的是模型预测值与真实值之间的期望误差,高偏差就是指模型在训练集和验证集上的表现很差。
方差(variance)是随机变量离其期望值的偏离程度的度量,高方差指的是模型对训练数据中的噪声或者随机性过度敏感,导致模型在训练集上表现很好,但在验证集上表现很差。
高偏差通常和欠拟合相关,高方差通常和过拟合相关,我的理解是这两个表述几乎等价。
在某些特定的机器学习任务中,人类的表现水平确实可以作为一个基准或者参考标准。例如:
学习曲线是一种很好的工具,可以帮助我们诊断模型的偏差和方差问题。学习曲线是训练误差和验证误差随着训练数据量的增加而变化的曲线。
在评估和优化机器学习模型时,识别并解决高偏差和高方差问题是非常重要的,他们能够揭示模型当前出了什么问题,还能够对症下药,帮助人们去改进模型,提升模型性能。
我用一个表格将6中策略和他们对应解决的问题展示出来。
策略 | 解决问题类型 |
增加样本数量 | 解决高方差 |
减少特征量 | 解决高方差 |
增加特征量 | 解决高偏差 |
增加模型复杂度 | 解决高偏差 |
减小正则化强度 | 解决高偏差 |
增大正则化强度 | 解决高方差 |
对于高偏差问题,可以通过增加模型复杂度(例如:使用更高阶多项式、添加更多特征等)、调整模型参数、采用更强大的模型结构等方式来提升模型的学习能力和对数据的拟合度。
对于高方差问题,则需要采取正则化技术(如L1、L2正则化)、增大训练数据量等手段来减少模型对训练数据的过拟合,提高模型在未知数据上的稳定性和泛化能力。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。