赞
踩
利用普通最小二乘法(OLS)估计多元线性回归模型,一个假设是解释变量之间不存在线性相关,即对于解释变量
X
i
(
i
=
2
,
3
…
K
)
X_i(i=2,3\dots K)
Xi(i=2,3…K),如果不存在全为0的数
λ
j
(
j
=
1
,
2
…
K
)
\lambda_j(j = 1,2\dots K)
λj(j=1,2…K),使得
λ
1
+
λ
2
X
2
i
+
λ
3
X
3
i
+
⋯
+
λ
k
X
k
i
=
0
\lambda_{1}+\lambda_{2} X_{2 i}+\lambda_{3} X_{3 i}+\cdots+\lambda_{k} X_{k i}=0
λ1+λ2X2i+λ3X3i+⋯+λkXki=0
则称解释变量
X
i
(
i
=
2
,
3
…
K
)
X_i(i=2,3\dots K)
Xi(i=2,3…K)之间存在多重共线性。用矩阵表示为,解释变量数据矩阵
X
=
[
1
X
21
X
31
⋯
X
k
1
1
X
22
X
32
⋯
X
k
2
⋯
⋯
⋯
⋯
⋯
1
X
2
n
X
3
n
⋯
X
k
n
]
\mathbf{X}=\left[
的秩
Rank
(
X
)
<
k
\operatorname{Rank}(\mathbf{X})<\mathrm{k}
Rank(X)<k,即在数据矩阵
X
\boldsymbol X
X中,至少有一个变量可以由其他变量线性表出。在实际数据中多以不完全多重共线性表现。所谓不完全多重共线性是指存在随机变量
μ
i
\mu_i
μi使得
λ
1
+
λ
2
X
2
i
+
λ
3
X
3
i
+
⋯
+
λ
k
X
k
i
+
μ
i
=
0
\lambda_{1}+\lambda_{2} X_{2 i}+\lambda_{3} X_{3 i}+\cdots+\lambda_{k} X_{k i}+\mu_i=0
λ1+λ2X2i+λ3X3i+⋯+λkXki+μi=0
或者
λ
1
+
λ
2
X
2
i
+
λ
3
X
3
i
+
⋯
+
λ
k
X
k
i
≈
0
\lambda_{1}+\lambda_{2} X_{2 i}+\lambda_{3} X_{3 i}+\cdots+\lambda_{k} X_{k i}\approx0
λ1+λ2X2i+λ3X3i+⋯+λkXki≈0
这表明数据矩阵
X
\boldsymbol X
X间的变量近似满足线性相关。不完全多重共线性依然满足
Rank
(
X
)
=
k
\operatorname{Rank}(\mathbf{X})= \mathrm{k}
Rank(X)=k,但需要注意,不存在完全多重共线性不代表不存在完全多重非线性,存在完全多重非线性依然满足经典多元线性回归模型假定。为弄清多重共线性的原理,先引入解释变量间的关系,共包含三种情况
r x i x j = 0 r_{x_{i} x_{j}}=0 rxixj=0
∣ r x i x j ∣ = 1 |r_{x_{i} x_{j}}|=1 ∣rxixj∣=1
0 < ∣ r x i x j ∣ < 1 0 < |r_{x_{i} x_{j}}|<1 0<∣rxixj∣<1
当出现完全多重共线性时,数据矩阵
Rank
(
X
)
<
k
\operatorname{Rank}(\mathbf{X})<\mathrm{k}
Rank(X)<k,从而有
∣
X
′
X
∣
=
0
\left|X^{\prime} X\right|=0
∣X′X∣=0,正规方程组的解不唯一,故
(
X
′
X
)
−
1
(X^{\prime} X)^{-1}
(X′X)−1不存在,OLS估计量不存在。这里以模型
Y
i
=
β
1
+
β
2
X
2
i
+
β
3
X
3
i
+
u
i
Y_{i}=\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+u_{i}
Yi=β1+β2X2i+β3X3i+ui为例,将该模型离差化
y
^
i
=
β
^
2
x
2
i
+
β
^
3
x
3
i
\hat{y}_{i}=\hat{\beta}_{2} x_{2 i}+\hat{\beta}_{3} x_{3 i}
y^i=β^2x2i+β^3x3i
根据多元线性回归OLS估计量公式得到
β
^
2
=
(
∑
y
i
x
2
i
)
(
∑
x
3
i
2
)
−
(
∑
y
i
x
3
i
)
(
∑
x
2
i
x
3
i
)
(
∑
x
2
i
2
)
(
∑
x
3
i
2
)
−
(
∑
x
2
i
x
3
i
)
2
β
^
3
=
(
∑
y
i
x
3
i
)
(
∑
x
2
i
2
)
−
(
∑
y
i
x
2
i
)
(
∑
x
2
i
x
3
i
)
(
∑
x
2
i
2
)
(
∑
x
3
i
2
)
−
(
∑
x
2
i
x
3
i
)
2
由于存在完全多重共线性,假定
X
2
i
=
λ
X
3
i
X_{2 i}=\lambda X_{3 i}
X2i=λX3i,代入上式
β
^
2
=
(
λ
∑
y
i
x
3
i
)
(
∑
x
3
i
2
)
−
(
∑
y
i
x
3
i
)
(
λ
∑
x
3
i
x
3
i
)
(
λ
2
∑
x
3
i
2
)
(
∑
x
3
i
2
)
−
λ
2
(
∑
x
3
i
x
3
i
)
2
=
0
0
β
^
3
=
(
∑
y
i
x
3
i
)
(
λ
2
∑
x
3
i
2
)
−
(
λ
∑
y
i
x
3
i
)
(
λ
∑
x
3
i
2
)
(
λ
2
∑
x
3
i
2
)
(
∑
x
3
i
2
)
−
λ
2
(
∑
x
3
i
2
)
2
=
0
0
此时估计量的分子分母皆为0,即未定式。也就是说,当解释变量间存在完全共线性时,利用OLS得到的估计量是不定的。
以
Y
i
=
β
1
+
β
2
X
2
i
+
β
3
X
3
i
+
u
i
Y_{i}=\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+u_{i}
Yi=β1+β2X2i+β3X3i+ui为例,方差协方差公式
Var
−
Cov
(
β
^
)
=
σ
2
(
X
′
X
)
−
1
\operatorname{Var}-\operatorname{Cov}(\hat{\boldsymbol{\beta}})=\sigma^{2}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1}
Var−Cov(β^)=σ2(X′X)−1
代入展开提取主对角线元素得
Var
(
β
^
2
)
=
∑
x
3
2
(
∑
x
2
2
)
(
∑
x
3
2
)
−
(
∑
x
2
x
3
)
2
σ
2
Var
(
β
^
3
)
=
∑
x
2
2
(
∑
x
2
2
)
(
∑
x
3
2
)
−
(
∑
x
2
x
3
)
2
σ
2
X
2
i
=
λ
X
3
i
X_{2 i}=\lambda X_{3 i}
X2i=λX3i,代入上式
Var
(
β
^
2
)
=
∑
x
3
2
(
λ
2
∑
x
3
2
)
(
∑
x
3
2
)
−
(
λ
∑
x
3
x
3
)
2
σ
2
=
∑
x
3
2
0
σ
2
=
∞
Var
(
β
^
3
)
=
λ
2
∑
x
3
2
(
λ
2
∑
x
3
2
)
(
∑
x
3
2
)
−
(
λ
∑
x
3
x
3
)
2
σ
2
=
∑
x
2
2
0
σ
2
=
∞
这表明,在解释变量之间存在完全的共线性时,参数估计量的方差将变成无穷大。
当解释变量间为不完全多重共线性时, ∣ X ′ X ∣ \left|X^{\prime} X\right| ∣X′X∣接近0,但参数的估计量依然存在。
给定模型
Y
i
=
β
1
+
β
2
X
2
i
+
β
3
X
3
i
+
u
i
Y_{i}=\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+u_{i}
Yi=β1+β2X2i+β3X3i+ui,假定解释变量
X
2
X_2
X2,
X
3
X_3
X3的离差形式满足
x
2
i
=
λ
x
3
i
+
v
i
x_{2 i}=\lambda x_{3 i}+v_{i}
x2i=λx3i+vi
其中
λ
≠
0
\lambda\ne 0
λ=0,
v
i
v_i
vi是满足严格外生性的随机变量,即
∑
x
2
i
v
i
=
0
\sum x_{2 i} v_{i}=0
∑x2ivi=0。将离差形式代入OLS估计量中并展开
β
^
3
=
(
∑
y
i
x
3
i
)
(
λ
2
∑
x
3
i
2
+
∑
v
i
2
)
−
(
λ
∑
y
i
x
3
i
+
∑
y
i
v
i
)
(
λ
∑
x
3
i
2
)
(
λ
2
∑
x
3
i
2
+
∑
v
i
2
)
(
∑
x
3
i
2
)
−
λ
2
(
∑
x
3
i
2
)
2
\hat{\beta}_{3}=\frac{\left(\sum y_{i} x_{3 i}\right)\left(\lambda^{2} \sum x_{3 i}^{2}+\sum v_{i}^{2}\right)-\left(\lambda \sum y_{i} x_{3 i}+\sum y_{i} v_{i}\right)\left(\lambda \sum x_{3 i}^{2}\right)}{\left(\lambda^{2} \sum x_{3 i}^{2}+\sum v_{i}^{2}\right)\left(\sum x_{3 i}^{2}\right)-\lambda^{2}\left(\sum x_{3 i}^{2}\right)^{2}}
β^3=(λ2∑x3i2+∑vi2)(∑x3i2)−λ2(∑x3i2)2(∑yix3i)(λ2∑x3i2+∑vi2)−(λ∑yix3i+∑yivi)(λ∑x3i2)
可见估计量
β
^
3
\hat{\beta}_3
β^3还是可以估计的。但当
v
i
→
0
v_i\to 0
vi→0,此时估计量分子分母趋向0,不确定性增加。
β
^
2
\hat{\beta}_2
β^2情况类似。当
X
2
X_2
X2,
X
3
X_3
X3为不完全共线性时,其相关系数平方和的离差形式可表示为
r
23
2
=
(
∑
x
2
x
3
)
2
∑
x
2
2
∑
x
3
2
r_{23}^{2}=\frac{\left(\sum x_{2} x_{3}\right)^{2}}{\sum x_{2}^{2} \sum x_{3}^{2}}
r232=∑x22∑x32(∑x2x3)2
将上式代入方差协方差计算公式得到
Var
(
β
^
2
)
=
∑
x
3
2
(
∑
x
2
2
)
(
∑
x
3
2
)
−
(
∑
x
2
x
3
)
2
σ
2
=
σ
2
1
∑
x
2
2
[
1
−
(
∑
x
2
x
3
)
2
∑
x
2
2
∑
x
3
2
]
=
σ
2
∑
x
2
i
2
(
1
−
r
23
2
)
同理
var
(
β
^
3
)
=
σ
2
∑
x
3
i
2
(
1
−
r
23
2
)
\operatorname{var}\left(\hat{\beta}_{3}\right)=\frac{\sigma^{2}}{\sum x_{3 i}^{2}\left(1-r_{23}^{2}\right)}
var(β^3)=∑x3i2(1−r232)σ2
cov ( β ^ 2 , β ^ 3 ) = − r 23 σ 2 ( 1 − r 23 2 ) ∑ x 2 i 2 ∑ x 3 i 2 \operatorname{cov}\left(\hat{\beta}_{2}, \hat{\beta}_{3}\right)=\frac{-r_{23} \sigma^{2}}{\left(1-r_{23}^{2}\right) \sqrt{\sum x_{2 i}^{2} \sum x_{3 i}^{2}}} cov(β^2,β^3)=(1−r232)∑x2i2∑x3i2 −r23σ2
由上三式可看出,随着共线性增加,方差、协方差绝对值都增大。方差协方差都取决于方差膨胀因子VIF,定义VIF
V
I
F
=
1
(
1
−
r
23
2
)
V I F=\frac{1}{\left(1-r_{23}^{2}\right)}
VIF=(1−r232)1
VIF表明,参数估计量的方差是由于多重共线性的出现而膨胀起来的。随着共线性的增加,参数估计量的方差也增大。将方差协方差用VIF表示,即
var
(
β
^
2
)
=
σ
2
∑
x
2
i
2
⋅
V
I
F
\operatorname{var}\left(\hat{\beta}_{2}\right)=\frac{\sigma^{2}}{\sum x_{2 i}^{2}} \cdot V I F
var(β^2)=∑x2i2σ2⋅VIF
var ( β ^ 3 ) = σ 2 ∑ x 3 i 2 ⋅ V I F \operatorname{var}\left(\hat{\beta}_{3}\right)=\frac{\sigma^{2}}{\sum x_{3 i}^{2}} \cdot V I F var(β^3)=∑x3i2σ2⋅VIF
这表明了 β ^ 2 , β ^ 3 \hat{\beta}_{2},\hat{\beta}_{3} β^2,β^3的方差同VIF成正比关系。
存在多重共线性时,参数估计值的方差增大,其标准误差也增大,导致总体参数的置信区间也随之变大。考虑参数估计量
β
^
2
\hat{\beta}_{2}
β^2,其置信区间为
β
^
2
±
t
α
/
2
(
n
−
k
−
1
)
V
I
F
σ
2
/
∑
x
3
i
2
\hat{\beta}_{2} \pm t_{\alpha/2}(n-k-1)\sqrt{VIF} \sqrt{\sigma^{2} / \sum x_{3 i}^{2}}
β^2±tα/2(n−k−1)VIF
σ2/∑x3i2
随着共线性增加,
β
^
2
\hat{\beta}_{2}
β^2的置信区间的边界扩大,但这与我们希望置信区间越小越好相违背。
首先是参数的置信区间扩大,会使得接受一个本应拒绝的假设的概率增大;其次,统计量
t
=
β
^
3
/
Var
(
β
^
3
)
t=\hat{\beta}_{3} / \sqrt{\operatorname{Var}\left(\hat{\beta}_{3}\right)}
t=β^3/Var(β^3)
变小,在高度共线性时,参数估计值的方差增加较快,会使得t值变小,而使
本应否定的“系数为0”的原假设被错误的接受。
简单相关系数检验法是利用解释变量之间的线性相关程度去判断是否存在严重多重共线性的一种简便方法。如果每两个解释变量的简单相关系数(零阶相关系数)比较高,例如大于0.8,则可认为存在着较严重的多重共线性。但要注意,较高的简单相关系数只是多重共线性存在的充分条件,而不是必要条件。
分别以每个解释变量为被解释变量,作与其他解释变量的回归,这称为辅助回归。以为
X
j
X_j
Xj被解释变量作对其他解释变量辅助线性回归的可决系数用
R
j
2
R_j^2
Rj2表示。经证明,解释变量
X
j
X_j
Xj参数估计值
β
^
j
\hat{\beta}_j
β^j的方差可表示为
Var
(
β
^
j
)
=
σ
2
∑
x
j
2
⋅
1
1
−
R
j
2
=
σ
2
∑
x
j
2
⋅
V
I
F
j
\operatorname{Var}\left(\hat{\beta}_{j}\right)=\frac{\sigma^{2}}{\sum x_{j}^{2}} \cdot \frac{1}{1-R_{j}^{2}}=\frac{\sigma^{2}}{\sum x_{j}^{2}} \cdot V I F_{j}
Var(β^j)=∑xj2σ2⋅1−Rj21=∑xj2σ2⋅VIFj
其中
V
I
F
j
VIF_j
VIFj是变量
X
j
X_j
Xj的方差扩大因子,即
V
I
F
j
=
1
(
1
−
R
j
2
)
V I F_{j}=\frac{1}{\left(1-R_{j}^{2}\right)}
VIFj=(1−Rj2)1
经验表明,
V
I
F
j
≥
10
VIF_j\ge 10
VIFj≥10时,说明解释变量与其余解释变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计。
逐步回归的基本思想是将变量逐个引入模型,每引入一个解释变量后,都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入而变得不再显著时,则将其剔除。以确保每次引入新的变量之前回归方程中只包含显著的变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止,以保证最后所得到的解释变量集是最优的。如果变量个数较少,可以手动实现;但变量较多,需要通过算法实现。
根据矩阵行列式的性质,矩阵的行列式等于其特征根的连乘积,因而当行列式
∣
X
′
X
∣
≈
0
\left|X^{\prime} X\right|\approx0
∣X′X∣≈0,,矩阵
X
′
X
X^{\prime} X
X′X至少有一个特征根近似于零;反之,当矩阵
X
′
X
X^{\prime} X
X′X至少有一个特征根近似为零时,X的列向量之间必存在多重共线性。特征根近似为零的标准可以用下面的病态指数来确定,记
X
′
X
X^{\prime} X
X′X最大的特征根为
λ
m
\lambda_m
λm,称
C
I
i
=
λ
m
λ
i
,
i
=
0
,
1
,
2
,
⋯
,
k
C I_{i}=\sqrt{\frac{\lambda_{m}}{\lambda_{i}}}, \quad \mathrm{i}=0,1,2, \cdots, \mathrm{k}
CIi=λiλm
,i=0,1,2,⋯,k
为特征根的病态指数。特征根个数与病态指数都包含了常数项在内。病态指数度量了矩阵
X
′
X
X^{\prime} X
X′X的特征根散布程度,可以用来判断多重共线性是否存在以及多重共线性的严重程度。
Y i = β 0 + β 1 X 1 i + β 2 X 2 i + β 3 X 3 i + ⋯ + β k X k i + u i Y_{i}=\beta_{0}+\beta_{1} X_{1 i}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+\cdots+\beta_{k} X_{k i}+u_{i} Yi=β0+β1X1i+β2X2i+β3X3i+⋯+βkXki+ui
作差分
Δ
Y
i
=
β
1
Δ
X
1
i
+
β
2
Δ
X
2
i
+
⋯
+
β
k
Δ
X
k
i
+
Δ
u
i
\Delta Y_{i}=\beta_{1} \Delta X_{1 i}+\beta_{2} \Delta X_{2 i}+\cdots+\beta_{k} \Delta X_{k i}+\Delta u_{i}
ΔYi=β1ΔX1i+β2ΔX2i+⋯+βkΔXki+Δui
因为差分常常会丢失一些信息,差分模型的误差项可能是序列相关的,可能会违背经典线性回归模型的相关假设,在具体运用时要慎重。
具体步骤如下:
用被解释变量对每一个所考虑的解释变量做简单回归。、
以对被解释变量贡献最大的解释变量所对应的回归方程为基础,按对被解释变量贡献大小的顺序逐个引入其余的解释变量。这个过程会出现3种情形。
计量经济学家们还致力于改进古典的最小二乘法,提出以采用有偏的估计为代价来提高估计量的稳定性的方法,如岭回归法、主成分法、偏最小二乘法等。
思想:岭回归(Ridge Regression)是A.E.Hoerl(霍尔)提出的一种改进最小二乘估计的方法,也叫岭估计(Ridge Estimate)。当解释变量之间存在多重共线性时
∣
X
′
X
∣
≈
0
|X^{\prime}X |\approx 0
∣X′X∣≈0,则方差协方差矩阵
E
[
(
β
−
β
)
(
β
^
−
β
)
′
]
=
σ
2
(
X
′
X
)
−
1
E\left[(\boldsymbol{\beta}-\boldsymbol{\beta})(\hat{\boldsymbol{\beta}}-\boldsymbol{\beta})^{\prime}\right]=\sigma^{2}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1}
E[(β−β)(β^−β)′]=σ2(X′X)−1的元素变大。如果将
X
′
X
X^{\prime}X
X′X加上一个对角矩阵
k
I
k\boldsymbol I
kI(k>0,
I
\boldsymbol I
I为单位矩阵),即
X
′
X
+
k
I
\mathbf{X}^{\prime} \mathbf{X}+k \mathbf{I}
X′X+kI,使得
∣
X
′
X
+
k
I
∣
≈
0
\left|\mathbf{X}^{\prime} \mathbf{X}+k \mathbf{I}\right| \approx 0
∣X′X+kI∣≈0的可能性比
∣
X
′
X
∣
≈
0
|X^{\prime}X |\approx 0
∣X′X∣≈0小得多,那么通过这样改进的估计量称为岭估计量
β
~
(
k
)
=
(
X
′
X
+
k
I
)
−
1
X
′
Y
\widetilde{\boldsymbol{\beta}}(k)=\left(\mathbf{X}^{\prime} \mathbf{X}+k \mathbf{I}\right)^{-1} \mathbf{X}^{\prime} \mathbf{Y}
β
(k)=(X′X+kI)−1X′Y
β
~
(
k
)
\widetilde{\boldsymbol{\beta}}(k)
β
(k)是
β
\beta
β的岭估计量,
k
k
k为岭估计参数。
E
(
β
~
(
k
)
)
=
E
(
X
′
X
+
k
I
)
−
1
X
′
Y
=
(
X
′
X
+
k
I
)
−
1
X
′
E
(
Y
)
=
(
X
′
X
+
k
I
)
−
1
X
′
X
β
E
(
β
~
(
k
)
)
=
E
(
X
′
X
+
k
I
)
−
1
X
′
Y
=
w
Y
其中 w = ( X ′ X + k I ) − 1 X ′ w =\left(\mathbf{X}^{\prime} \mathbf{X}+k \mathbf{I}\right)^{-1} \mathbf{X}^{\prime} w=(X′X+kI)−1X′
岭回归估计的方差和偏倚与岭回归参数 k k k有关,岭回归参数 k k k的值越大, β ~ ( k ) \widetilde{\boldsymbol{\beta}}(k) β (k)的偏倚越大,其方差就越小。要得到方差较小的估计结果,又不得不牺牲无偏性。为此可以用兼顾方差和偏倚的最小均方误差MSE原则
原则上是要选择使均方误差 MSE [ β ^ ( k ) ] \operatorname{MSE}[\hat{\beta}(k)] MSE[β^(k)]达到最小的 k k k,而最优值 k k k依赖于未知参数 β \boldsymbol \beta β和 σ 2 \sigma^2 σ2,因而在实际应用中必须通过样本来确定。目前还没有形成公认的选择岭回归参数的最优方法,常用的方法主要有岭迹法、方差扩大因子法、残差平方和方法。
参考文献
庞皓. 计量经济学[M].科学出版社
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。