赞
踩
目录
离差,偏差(deviation),变异(variation)
离差平方和(sums of squared deviations,SS)
方差(variance/deviation Var,D(X) )
标准误(Standard Error of Mean,SE)
残差平方和(residual sum of squares/sum squared residual, RSS/SSR)
均方根误差(Root-mean-square error,RMSE)
归一化的均方根误差(normalized root-mean-square error,NRMSE )
平均绝对误差(Mean Absolute Error,MAE)
决定系数(coefficient of determination,R^2)
别称:常见的名称有离差,偏差,离均差,距平,一般都是指deviation。
定义:是变量的一个观测值与某个特定的参照值之间差异的度量。参照值通常指变量的平均值,此时称为离均差或距平。而一变量的各数值对于其平均值的偏离,称为变异(variation)。
特点:有正负。
别称:平方和
定义:是变量各项与变量平均值之差的平方的总和,称为离差平方和,也简称平方和。
意义:
离差有正负,离差和不能反映变量整体的偏离。
离差经过平方之后只有正值,离差平方和可以反应与均值的偏离程度。
( 通常用离差平方和来描述变异程度)
计算:
离差平方和通常表示为SS:
离差平方和可以用来计算方差,标准差等。
定义:是离差平方和的期望。
计算为,每个样本值与全体样本均值的差的平方和的平均值。
意义:
离差平方和的大小受到样本总量大小的影响,不利于不同数据集的比较。
离差平方和的期望(方差)可以表示数据离散程度。
公式:
根据离差平方(SS)可以描述为:
-------------------------
------------
无偏估计
实际工作中,总体均数难以得到时,应用样本统计量代替总体参数,经校正后(将 N 换成(N-1)),样本方差的无偏估计计算公式:
通俗点讲就是如果计算的数据集不是总体, 只是部分样本, 使用分母是n公式计算的样本方差通常会小于总体方差, 使用分母是n-1的公式计算的样本方差与总体方差更接近。
说的更专业一点就是,n-1是自由度,1是变量数量。在计算RMSE的时候变量是两个,那么样本RMSE的无偏估计的分母就是自由度(n-2)。
定义:是方差的平方根。
意义:由于方差是离差平方和的均值,平方后数值大小与原数值大小范围相差太大,所以常用方差开根号换算回来。平均数相同的,标准差未必相同。
公式:
如是总体(即估算总体方差),根号内除以n(对应excel函数:STDEVP);
如是抽样(即估算样本方差),根号内除以(n-1)(对应excel函数:STDEV);
matlab使用函数:std, nanstd
计算为 标准差与均值的比。
其中,分子是总体标准差,分母指数据的平均数。
定义:是多个样本平均数的标准差。
意义: 是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度,反映的是样本均数之间的变异。
注意:
1. 标准误不是标准差。
2. 标准误能够通过标准差计算。
3. 在实验中单次测量总是难免会产生误差,为此我们经常测量多次,然后用测量值的平均值表示测量的量,并用误差条来表征数据的分布,其中误差条的高度为±标准误差。
公式:
关于标准差与标准误的区别请看:
(误差棒到底是个什么棒?到底棒不棒!)误差棒到底是个什么棒?到底棒不棒!_和你在一起^_^的博客-CSDN博客
残差在数理统计中是指实际观察值与估计值(拟合值)之间的差。常在建模中使用。
误差(errors)
测量值与真实值的差。对任何一个物理量进行测量都不可能得出一个绝对准确的数值,误差表示测量结果偏离真值的程度。
残差与误差的区别
残差和误差的区别在于一个是估计值一个是真值。
残差与误差的联系
,为什么在建模时,大家会混用,因为如果回归模型正确的话, 我们可以将残差看作误差的观测值。
统计中经常出现离差,残差,误差,和偏差等概念,不小心就会弄混,要注意区分。
别名:误差平方和(Sum of the Squared Errors, SSE), 组内平方和
定义:真实值与模型预测值的差的平方的和。(残差的平方和)
意义:它是数据与估计模型(例如线性回归)之间差异的度量。小的 RSS 表示模型与数据的拟合度很高。
计算:
其他:
除了误差平方和(SSE),还有总平方和(SST),回归平方和(SSR),
总平方和(SST):计算为真值与真值均值的差的平方和,也就是真值的离差平方和。
回归平方和(SSR):计算为预测值与真值均值的差的平方和,也就是预测值的离差平方和。
误差平方和(SSE):计算为真值与预测值的差的平方和,也就是残差平方和。
SST = SSE + SSR
R2可以计算为SSR/SST,或者 1 - SSE/SST
定义1:参数估计值与参数真值之差平方的期望值。(残差平方和的均值)
意义:在模型中表示预测值相对于真实值的偏差, 描述误差大小。
定义2:方差分析中组内变异(残差平方和SSE)与误差自由度(dfE)的商。
别称:标准误差,均方根偏差(RMSD,Root-mean-square deviation)
定义:预测值与真实值偏差的平方和与观测次数m比值的平方根。(均方差 MSE的平方根)
意义:在模型中表示预测值相对于真实值的偏差, 描述误差大小。
与标准差的区别和联系:
标准差是用来衡量一组数自身的离散程度,
而均方根误差是用来衡量观测值同真值之间的偏差,它们的研究对象和研究目的不同,但是计算过程类似。
公式:
定义:通常用RMSE除以真值均值。
意义:归一化 RMSD 有助于比较不同尺度的数据集或模型。通常以百分比表示,其中较低的值表示较小的残差。
计算:
尽管文献中没有一致的归一化方法,但常见的选择是测量数据的平均值或范围(定义为最大值减去最小值):
来着维基百科
定义:观测值与真实值的误差绝对值的平均值。
意义:准确反映实际预测误差的大小。
公式:
别称:测定系数、决定系数、可决指数, 拟合优度
定义:
变量x引起y变异的回归平方和占y变异总平方和的比率(模型可解释变异占总变异的比值),也称为拟合优度。
意义:
R方一般在回归模型中评估预测值和实际值的符合程度。
表示一个随机变量与多个随机变量关系的数字特征,用来反映回归模型解释因变量变化可靠程度的一个统计指标。
决定系数反应了y的波动有多少百分比能被x的波动所描述,即表征依变数Y的变异中有多少百分比,可由控制的自变数X来解释。
公式:
计算为 R2=SSR/SST=1-SSE/SST。
总平方和(SST):计算为真值与真值均值的差的平方和,也就是真值的离差平方和。
回归平方和(SSR):计算为预测值与真值均值的差的平方和,也就是预测值的离差平方和。
误差平方和(SSE):计算为真值与预测值的差的平方和,也就是残差平方和。
SST = SSE + SSR
R2可以计算为SSR/SST,或者 1 - SSE/SST
计算:
计算样本方差和样本MSE的时候,为了更好的表示总体方差和总体MSE,计算公式的分母为自由度(n-变量格式)。
参考链接:
为什么样本标准差分母为n-1_样本标准差分母为什么是n-1_花花呼呼的博客-CSDN博客
样本标准差分母为什么是n-1_标准差分母为什么减1_ljm1200的博客-CSDN博客
本博文主要参考:
百度词条
维基百科
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。