赞
踩
变量之间的关系可以分为两种类型,即函数关系和相关关系。
函数关系 functional relationship
函数关系是一一对应的确定关系。设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,其中x称为自变量,y称为因变量。
相关关系 correlation
由于影响一个变量的因素非常多,造成了变量之间关系的不确定性。变量之间存在的不确定的数量关系,称为相关关系。相关关系具有如下特点:一个变量的取值不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有几个。对这种关系不确定的变量显然不能用函数关系进行描述,但也不是无任何规律可循。通过对大量数据的观察与研究,就会发现许多变量之间确实存在着一定的客观规律。
散点图 scatter diagram
对于两个bianliangx和y,通过观察或实验可以得到若干组数据,记为(xi,yi)(i=1,2,…,n)。用坐标的横轴代表变量x,纵轴代表变量y,每组数据(xi,yi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的二维数据图称为散点图。散点图是描述变量之间关系的一种直观方法,从中可以大体上看出变量之间的关系形态及关系强度。
相关系数 correlation coefficient
相关系数是根据样本数据计算的量度两个变量之间线性关系强度的统计量。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为ρ;若根据样本数据计算的,则称为样本相关系数,记为r。
线性相关系数 linear correlation coefficient / Pearson相关系数 Pearson’s correlation coefficient
使用样本相关系数的计算公式计算的相关系数即为线性相关系数【批:线性相关系数是双变量的相关系数,用以衡量两个变量之间的相关程度】,其公式为:
r
=
n
∑
x
y
−
∑
x
∑
y
n
∑
x
2
−
(
∑
x
)
2
⋅
n
∑
y
2
−
(
∑
y
)
2
r=\frac{n\sum{xy}-\sum{x}\sum{y}}{\sqrt{n\sum{x^2}-(\sum{x})^2}\cdot{\sqrt{n\sum{y^2}-(\sum{y})^2}}}
r=n∑x2−(∑x)2
⋅n∑y2−(∑y)2
n∑xy−∑x∑y
回归分析 regression analysis
(相关分析的目的在于测量变量之间的关系强度,它所使用的测量工具就是相关系数。)回归分析侧重于考量变量之间的数量关系,并通过一定的数学表达式将这种关系描述出来,进而确定一个或几个变量(自变量)的变化对另一个特定变量(因变量)的影响程度。具体来说,回归分析主要解决以下几个方面的问题:
因变量 dependent variable
在回归分析中,被预测或被解释的变量称为因变量,用y表示。
自变量 independent variable
在回归分析中,用来预测或解释因变量的一个或多个变量称为自变量,用x表示。
回归模型 regression model
对于具有线性关系的两个变量,可以用一个线性方程来表示它们之间的关系。描述因变量y如何依赖于自变量x和误差项ε的方程称为回归模型。只涉及一个自变量的一元线性回归模型可表示为:
y=β0+β1x+ε
上式称为理论回归模型,对这一模型,有以下几个主要假定:
回归方程 regression equation
根据回归模型中的假定,ε的期望值等于0,因此y的期望值E(y)=β0+β1x,也就是说,y的期望值是x的线性函数。描述因变量y的期望值如何依赖于自变量x的方程称为回归方程。一元线性回归方程的形式为:
E
(
y
)
=
β
0
+
β
1
x
E(y)=\beta_0+\beta_1x
E(y)=β0+β1x
一元线性回归方程的图示是一条直线,因此也称为直线回归方程。其中β0是回归直线在y轴上的截距,是当x=0时y的期望值;β1是直线的斜率,它表示x每变动一个单位时,y的平均变动值。
最小二乘法 / 最小平方法 method of least squares
高斯提出用最小化图中垂直方向的离差平方和来估计参数β0和β1,根据这一方法确定模型参数β0和β1的方法称为最小二乘法,它是通过使因变量的观测值yi与yi的估计值之间的离差平方和达到最小来估计β0和β1的方法。
拟合优度 goodness of fit
回归直线与各观测点的接近程度称为回归直线对数据的拟合优度。
判定系数 coefficient of determination
判定系数是对估计的回归方程拟合优度的度量,为回归平方和占总平方和的比例,记为R^2,其计算公式为:
R
2
=
S
S
R
S
S
T
=
∑
(
y
i
^
−
y
‾
)
2
∑
(
y
i
−
y
‾
)
2
=
1
−
∑
(
y
i
−
y
i
^
)
2
∑
(
y
i
−
y
‾
)
2
R^2=\frac{SSR}{SST}=\frac{\sum({\hat{y_i}-\overline{y})^2}}{\sum{(y_i-\overline{y})^2}}=1-\frac{\sum({y_i-\hat{y_i})^2}}{\sum{(y_i-\overline{y})^2}}
R2=SSTSSR=∑(yi−y)2∑(yi^−y)2=1−∑(yi−y)2∑(yi−yi^)2
估计标准误差 standard error of estimate
估计标准误差是衡量各实际观测点在直接周围的散布状况的一个统计量,它是均方残差(MSE)的平方根,用se来表示,其计算公式为:
s
e
=
∑
(
y
i
−
y
i
^
)
2
n
−
2
=
S
S
E
n
−
2
=
M
S
E
s_e=\sqrt{\frac{\sum{(y_i-\hat{y_i})^2}}{n-2}}=\sqrt{\frac{SSE}{n-2}}=\sqrt{MSE}
se=n−2∑(yi−yi^)2
=n−2SSE
=MSE
预测 predict
回归模型经过各种检验并标明符合规定的要求后,就可以利用它来预测因变量了。所谓预测是指通过自变量x的取值来预测因变量y的取值。
点估计 point estimate
【此处为在回归分析中的定义,其他参见:第7章 参数估计】利用估计的回归方程,对于x的一个特定值x0,求出y的一个估计值就是点估计。点估计可分为两种:一是平均值的点估计,二是个别之的点估计。
区间估计 point estimate
【此处为在回归分析中的定义,其他参见:第7章 参数估计】利用估计的回归方程,对于x的一个特定值x0,求出y的一个估计值的区间就是区间估计。区间估计也有两种类型,一是置信区间估计,二是预测区间估计。
置信区间估计 confidence interval estimate
(回归分析中的)置信区间估计是对x的一个给定值x0,求出y的平均值的区间估计,这一区间称为置信区间。
预测区间估计 prediction interval estimate
(回归分析中的)预测区间估计是对x的一个给定值x0,求出y的一个个别值的区间估计,这一区间称为预测区间。
预测区间 prediction interval
残差分析 residual analysis
残差分析就是通过残差所提供的信息,分析出数据的可靠性周期性和其他干扰,用于分析模型的假定正确与否的方法。
残差 residual
残差是因变量的观测值yi与根据估计的回归方程求出的预测值之差,用e表示。它反映了用估计的回归方程去预测yi而引起的误差。
标准化误差 / Pearnson残差 / 半学生化残差 standardized residual / semi-studentized residuals
对ε正态性假定的检验,也可以通过对标准化残差的分析来完成。标准化残差是残差除以它的标准差后得到的数值,用ze表示。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。