当前位置:   article > 正文

多元线性回归—多重共线性_多元逻辑回归的多重线性检验

多元逻辑回归的多重线性检验

多重共线性

1 什么是多重共线性

1.1 多重共线性含义

利用普通最小二乘法(OLS)估计多元线性回归模型,一个假设是解释变量之间不存在线性相关,即对于解释变量 X i ( i = 2 , 3 … K ) X_i(i=2,3\dots K) Xi(i=2,3K),如果不存在全为0的数 λ j ( j = 1 , 2 … K ) \lambda_j(j = 1,2\dots K) λj(j=1,2K),使得
λ 1 + λ 2 X 2 i + λ 3 X 3 i + ⋯ + λ k X k i = 0 \lambda_{1}+\lambda_{2} X_{2 i}+\lambda_{3} X_{3 i}+\cdots+\lambda_{k} X_{k i}=0 λ1+λ2X2i+λ3X3i++λkXki=0
则称解释变量 X i ( i = 2 , 3 … K ) X_i(i=2,3\dots K) Xi(i=2,3K)之间存在多重共线性。用矩阵表示为,解释变量数据矩阵
X = [ 1 X 21 X 31 ⋯ X k 1 1 X 22 X 32 ⋯ X k 2 ⋯ ⋯ ⋯ ⋯ ⋯ 1 X 2 n X 3 n ⋯ X k n ] \mathbf{X}=\left[

1X21X31Xk11X22X32Xk21X2nX3nXkn
\right] X= 111X21X22X2nX31X32X3nXk1Xk2Xkn
的秩 Rank ⁡ ( X ) < k \operatorname{Rank}(\mathbf{X})<\mathrm{k} Rank(X)<k,即在数据矩阵 X \boldsymbol X X中,至少有一个变量可以由其他变量线性表出。在实际数据中多以不完全多重共线性表现。所谓不完全多重共线性是指存在随机变量 μ i \mu_i μi使得
λ 1 + λ 2 X 2 i + λ 3 X 3 i + ⋯ + λ k X k i + μ i = 0 \lambda_{1}+\lambda_{2} X_{2 i}+\lambda_{3} X_{3 i}+\cdots+\lambda_{k} X_{k i}+\mu_i=0 λ1+λ2X2i+λ3X3i++λkXki+μi=0
或者
λ 1 + λ 2 X 2 i + λ 3 X 3 i + ⋯ + λ k X k i ≈ 0 \lambda_{1}+\lambda_{2} X_{2 i}+\lambda_{3} X_{3 i}+\cdots+\lambda_{k} X_{k i}\approx0 λ1+λ2X2i+λ3X3i++λkXki0
这表明数据矩阵 X \boldsymbol X X间的变量近似满足线性相关。不完全多重共线性依然满足 Rank ⁡ ( X ) = k \operatorname{Rank}(\mathbf{X})= \mathrm{k} Rank(X)=k,但需要注意,不存在完全多重共线性不代表不存在完全多重非线性,存在完全多重非线性依然满足经典多元线性回归模型假定。为弄清多重共线性的原理,先引入解释变量间的关系,共包含三种情况

  • 解释变量间正交

r x i x j = 0 r_{x_{i} x_{j}}=0 rxixj=0

  • 解释变量间完全共线性

∣ r x i x j ∣ = 1 |r_{x_{i} x_{j}}|=1 rxixj=1

  • 解释间不完全共线性

0 < ∣ r x i x j ∣ < 1 0 < |r_{x_{i} x_{j}}|<1 0<rxixj<1


1.2 多重共线性产生原因

  • 经济变量之间具有共同变化趋势,例如气温与雪糕销量
  • 模型中含有滞后解释变量 X i , X i − 1 … X i − n X_i,X_{i-1}\dots X_{i-n} Xi,Xi1Xin
  • 截面数据模型也可能出现多重共线性
  • 样本数据问题

2 多重共线性后果

2.1 完全型

  • 参数的估计值不确定

当出现完全多重共线性时,数据矩阵 Rank ⁡ ( X ) < k \operatorname{Rank}(\mathbf{X})<\mathrm{k} Rank(X)<k,从而有 ∣ X ′ X ∣ = 0 \left|X^{\prime} X\right|=0 XX=0,正规方程组的解不唯一,故 ( X ′ X ) − 1 (X^{\prime} X)^{-1} (XX)1不存在,OLS估计量不存在。这里以模型 Y i = β 1 + β 2 X 2 i + β 3 X 3 i + u i Y_{i}=\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+u_{i} Yi=β1+β2X2i+β3X3i+ui为例,将该模型离差化
y ^ i = β ^ 2 x 2 i + β ^ 3 x 3 i \hat{y}_{i}=\hat{\beta}_{2} x_{2 i}+\hat{\beta}_{3} x_{3 i} y^i=β^2x2i+β^3x3i
根据多元线性回归OLS估计量公式得到
β ^ 2 = ( ∑ y i x 2 i ) ( ∑ x 3 i 2 ) − ( ∑ y i x 3 i ) ( ∑ x 2 i x 3 i ) ( ∑ x 2 i 2 ) ( ∑ x 3 i 2 ) − ( ∑ x 2 i x 3 i ) 2 β ^ 3 = ( ∑ y i x 3 i ) ( ∑ x 2 i 2 ) − ( ∑ y i x 2 i ) ( ∑ x 2 i x 3 i ) ( ∑ x 2 i 2 ) ( ∑ x 3 i 2 ) − ( ∑ x 2 i x 3 i ) 2

β^2=(yix2i)(x3i2)(yix3i)(x2ix3i)(x2i2)(x3i2)(x2ix3i)2β^3=(yix3i)(x2i2)(yix2i)(x2ix3i)(x2i2)(x3i2)(x2ix3i)2
β^2=(x2i2)(x3i2)(x2ix3i)2(yix2i)(x3i2)(yix3i)(x2ix3i)β^3=(x2i2)(x3i2)(x2ix3i)2(yix3i)(x2i2)(yix2i)(x2ix3i)
由于存在完全多重共线性,假定 X 2 i = λ X 3 i X_{2 i}=\lambda X_{3 i} X2i=λX3i,代入上式
β ^ 2 = ( λ ∑ y i x 3 i ) ( ∑ x 3 i 2 ) − ( ∑ y i x 3 i ) ( λ ∑ x 3 i x 3 i ) ( λ 2 ∑ x 3 i 2 ) ( ∑ x 3 i 2 ) − λ 2 ( ∑ x 3 i x 3 i ) 2 = 0 0 β ^ 3 = ( ∑ y i x 3 i ) ( λ 2 ∑ x 3 i 2 ) − ( λ ∑ y i x 3 i ) ( λ ∑ x 3 i 2 ) ( λ 2 ∑ x 3 i 2 ) ( ∑ x 3 i 2 ) − λ 2 ( ∑ x 3 i 2 ) 2 = 0 0
β^2=(λyix3i)(x3i2)(yix3i)(λx3ix3i)(λ2x3i2)(x3i2)λ2(x3ix3i)2=00β^3=(yix3i)(λ2x3i2)(λyix3i)(λx3i2)(λ2x3i2)(x3i2)λ2(x3i2)2=00
β^2=(λ2x3i2)(x3i2)λ2(x3ix3i)2(λyix3i)(x3i2)(yix3i)(λx3ix3i)=00β^3=(λ2x3i2)(x3i2)λ2(x3i2)2(yix3i)(λ2x3i2)(λyix3i)(λx3i2)=00

此时估计量的分子分母皆为0,即未定式。也就是说,当解释变量间存在完全共线性时,利用OLS得到的估计量是不定的。

  • 参数方差无限大

Y i = β 1 + β 2 X 2 i + β 3 X 3 i + u i Y_{i}=\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+u_{i} Yi=β1+β2X2i+β3X3i+ui为例,方差协方差公式
Var ⁡ − Cov ⁡ ( β ^ ) = σ 2 ( X ′ X ) − 1 \operatorname{Var}-\operatorname{Cov}(\hat{\boldsymbol{\beta}})=\sigma^{2}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} VarCov(β^)=σ2(XX)1
代入展开提取主对角线元素得
Var ⁡ ( β ^ 2 ) = ∑ x 3 2 ( ∑ x 2 2 ) ( ∑ x 3 2 ) − ( ∑ x 2 x 3 ) 2 σ 2 Var ⁡ ( β ^ 3 ) = ∑ x 2 2 ( ∑ x 2 2 ) ( ∑ x 3 2 ) − ( ∑ x 2 x 3 ) 2 σ 2

Var(β^2)=x32(x22)(x32)(x2x3)2σ2Var(β^3)=x22(x22)(x32)(x2x3)2σ2
Var(β^2)=(x22)(x32)(x2x3)2x32σ2Var(β^3)=(x22)(x32)(x2x3)2x22σ2
X 2 i = λ X 3 i X_{2 i}=\lambda X_{3 i} X2i=λX3i,代入上式
Var ⁡ ( β ^ 2 ) = ∑ x 3 2 ( λ 2 ∑ x 3 2 ) ( ∑ x 3 2 ) − ( λ ∑ x 3 x 3 ) 2 σ 2 = ∑ x 3 2 0 σ 2 = ∞ Var ⁡ ( β ^ 3 ) = λ 2 ∑ x 3 2 ( λ 2 ∑ x 3 2 ) ( ∑ x 3 2 ) − ( λ ∑ x 3 x 3 ) 2 σ 2 = ∑ x 2 2 0 σ 2 = ∞
Var(β^2)=x32(λ2x32)(x32)(λx3x3)2σ2=x320σ2=Var(β^3)=λ2x32(λ2x32)(x32)(λx3x3)2σ2=x220σ2=
Var(β^2)=(λ2x32)(x32)(λx3x3)2x32σ2=0x32σ2=Var(β^3)=(λ2x32)(x32)(λx3x3)2λ2x32σ2=0x22σ2=

这表明,在解释变量之间存在完全的共线性时,参数估计量的方差将变成无穷大。


2.2 不完全型

当解释变量间为不完全多重共线性时, ∣ X ′ X ∣ \left|X^{\prime} X\right| XX接近0,但参数的估计量依然存在。

  • 估计量方差增大

给定模型 Y i = β 1 + β 2 X 2 i + β 3 X 3 i + u i Y_{i}=\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+u_{i} Yi=β1+β2X2i+β3X3i+ui,假定解释变量 X 2 X_2 X2, X 3 X_3 X3的离差形式满足
x 2 i = λ x 3 i + v i x_{2 i}=\lambda x_{3 i}+v_{i} x2i=λx3i+vi
其中 λ ≠ 0 \lambda\ne 0 λ=0, v i v_i vi是满足严格外生性的随机变量,即 ∑ x 2 i v i = 0 \sum x_{2 i} v_{i}=0 x2ivi=0。将离差形式代入OLS估计量中并展开
β ^ 3 = ( ∑ y i x 3 i ) ( λ 2 ∑ x 3 i 2 + ∑ v i 2 ) − ( λ ∑ y i x 3 i + ∑ y i v i ) ( λ ∑ x 3 i 2 ) ( λ 2 ∑ x 3 i 2 + ∑ v i 2 ) ( ∑ x 3 i 2 ) − λ 2 ( ∑ x 3 i 2 ) 2 \hat{\beta}_{3}=\frac{\left(\sum y_{i} x_{3 i}\right)\left(\lambda^{2} \sum x_{3 i}^{2}+\sum v_{i}^{2}\right)-\left(\lambda \sum y_{i} x_{3 i}+\sum y_{i} v_{i}\right)\left(\lambda \sum x_{3 i}^{2}\right)}{\left(\lambda^{2} \sum x_{3 i}^{2}+\sum v_{i}^{2}\right)\left(\sum x_{3 i}^{2}\right)-\lambda^{2}\left(\sum x_{3 i}^{2}\right)^{2}} β^3=(λ2x3i2+vi2)(x3i2)λ2(x3i2)2(yix3i)(λ2x3i2+vi2)(λyix3i+yivi)(λx3i2)
可见估计量 β ^ 3 \hat{\beta}_3 β^3还是可以估计的。但当 v i → 0 v_i\to 0 vi0,此时估计量分子分母趋向0,不确定性增加。 β ^ 2 \hat{\beta}_2 β^2情况类似。当 X 2 X_2 X2, X 3 X_3 X3为不完全共线性时,其相关系数平方和的离差形式可表示为
r 23 2 = ( ∑ x 2 x 3 ) 2 ∑ x 2 2 ∑ x 3 2 r_{23}^{2}=\frac{\left(\sum x_{2} x_{3}\right)^{2}}{\sum x_{2}^{2} \sum x_{3}^{2}} r232=x22x32(x2x3)2
将上式代入方差协方差计算公式得到
Var ⁡ ( β ^ 2 ) = ∑ x 3 2 ( ∑ x 2 2 ) ( ∑ x 3 2 ) − ( ∑ x 2 x 3 ) 2 σ 2 = σ 2 1 ∑ x 2 2 [ 1 − ( ∑ x 2 x 3 ) 2 ∑ x 2 2 ∑ x 3 2 ] = σ 2 ∑ x 2 i 2 ( 1 − r 23 2 )

Var(β^2)=x32(x22)(x32)(x2x3)2σ2=σ21x22[1(x2x3)2x22x32]=σ2x2i2(1r232)
Var(β^2)=(x22)(x32)(x2x3)2x32σ2=σ2x22[1x22x32(x2x3)2]1=x2i2(1r232)σ2
同理
var ⁡ ( β ^ 3 ) = σ 2 ∑ x 3 i 2 ( 1 − r 23 2 ) \operatorname{var}\left(\hat{\beta}_{3}\right)=\frac{\sigma^{2}}{\sum x_{3 i}^{2}\left(1-r_{23}^{2}\right)} var(β^3)=x3i2(1r232)σ2

cov ⁡ ( β ^ 2 , β ^ 3 ) = − r 23 σ 2 ( 1 − r 23 2 ) ∑ x 2 i 2 ∑ x 3 i 2 \operatorname{cov}\left(\hat{\beta}_{2}, \hat{\beta}_{3}\right)=\frac{-r_{23} \sigma^{2}}{\left(1-r_{23}^{2}\right) \sqrt{\sum x_{2 i}^{2} \sum x_{3 i}^{2}}} cov(β^2,β^3)=(1r232)x2i2x3i2 r23σ2

由上三式可看出,随着共线性增加,方差、协方差绝对值都增大。方差协方差都取决于方差膨胀因子VIF,定义VIF
V I F = 1 ( 1 − r 23 2 ) V I F=\frac{1}{\left(1-r_{23}^{2}\right)} VIF=(1r232)1
VIF表明,参数估计量的方差是由于多重共线性的出现而膨胀起来的。随着共线性的增加,参数估计量的方差也增大。将方差协方差用VIF表示,即
var ⁡ ( β ^ 2 ) = σ 2 ∑ x 2 i 2 ⋅ V I F \operatorname{var}\left(\hat{\beta}_{2}\right)=\frac{\sigma^{2}}{\sum x_{2 i}^{2}} \cdot V I F var(β^2)=x2i2σ2VIF

var ⁡ ( β ^ 3 ) = σ 2 ∑ x 3 i 2 ⋅ V I F \operatorname{var}\left(\hat{\beta}_{3}\right)=\frac{\sigma^{2}}{\sum x_{3 i}^{2}} \cdot V I F var(β^3)=x3i2σ2VIF

这表明了 β ^ 2 , β ^ 3 \hat{\beta}_{2},\hat{\beta}_{3} β^2,β^3的方差同VIF成正比关系。

  • 对参数区间估计时,置信区间趋于变大

存在多重共线性时,参数估计值的方差增大,其标准误差也增大,导致总体参数的置信区间也随之变大。考虑参数估计量 β ^ 2 \hat{\beta}_{2} β^2,其置信区间为
β ^ 2 ± t α / 2 ( n − k − 1 ) V I F σ 2 / ∑ x 3 i 2 \hat{\beta}_{2} \pm t_{\alpha/2}(n-k-1)\sqrt{VIF} \sqrt{\sigma^{2} / \sum x_{3 i}^{2}} β^2±tα/2(nk1)VIF σ2/x3i2
随着共线性增加, β ^ 2 \hat{\beta}_{2} β^2的置信区间的边界扩大,但这与我们希望置信区间越小越好相违背。

  • 严重多重共线时,假设检验容易作出错误的判断

首先是参数的置信区间扩大,会使得接受一个本应拒绝的假设的概率增大;其次,统计量 t = β ^ 3 / Var ⁡ ( β ^ 3 ) t=\hat{\beta}_{3} / \sqrt{\operatorname{Var}\left(\hat{\beta}_{3}\right)} t=β^3/Var(β^3) 变小,在高度共线性时,参数估计值的方差增加较快,会使得t值变小,而使
本应否定的“系数为0”的原假设被错误的接受。

  • 严重多重共线可能造成可决系数 R 2 R^2 R2提高, F F F值过高,但对各个参数单独的 t 检验却可能不显著,甚至可能使估计的回归系数符号相反,得出完全错误的结论

3 多重共线性检验

3.1 简单相关系数检验

简单相关系数检验法是利用解释变量之间的线性相关程度去判断是否存在严重多重共线性的一种简便方法。如果每两个解释变量的简单相关系数(零阶相关系数)比较高,例如大于0.8,则可认为存在着较严重的多重共线性。但要注意,较高的简单相关系数只是多重共线性存在的充分条件,而不是必要条件。


3.2 方差膨胀因子法

分别以每个解释变量为被解释变量,作与其他解释变量的回归,这称为辅助回归。以为 X j X_j Xj被解释变量作对其他解释变量辅助线性回归的可决系数用 R j 2 R_j^2 Rj2表示。经证明,解释变量 X j X_j Xj参数估计值 β ^ j \hat{\beta}_j β^j的方差可表示为
Var ⁡ ( β ^ j ) = σ 2 ∑ x j 2 ⋅ 1 1 − R j 2 = σ 2 ∑ x j 2 ⋅ V I F j \operatorname{Var}\left(\hat{\beta}_{j}\right)=\frac{\sigma^{2}}{\sum x_{j}^{2}} \cdot \frac{1}{1-R_{j}^{2}}=\frac{\sigma^{2}}{\sum x_{j}^{2}} \cdot V I F_{j} Var(β^j)=xj2σ21Rj21=xj2σ2VIFj
其中 V I F j VIF_j VIFj是变量 X j X_j Xj的方差扩大因子,即
V I F j = 1 ( 1 − R j 2 ) V I F_{j}=\frac{1}{\left(1-R_{j}^{2}\right)} VIFj=(1Rj2)1
经验表明, V I F j ≥ 10 VIF_j\ge 10 VIFj10时,说明解释变量与其余解释变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计。


3.3 经验法

  • 当增加或剔除一个解释变量,或者改变一个观测值时,回归参数的估计值发生较大变化,回归方程可能存在严重的多重共线性
  • 一些重要的解释变量的回归系数的标准误差较大,在回归方程中没有通过显著性检验时,可初步判断可能存在严重的多重共线性。
  • 有些解释变量的回归系数所带正负号与定性分析结果违背时,很可能存在多重共线性。
  • 解释变量的相关矩阵中,自变量之间的相关系数较大时,可能会存在多重共线性问题。

3.4 逐步回归检测

逐步回归的基本思想是将变量逐个引入模型,每引入一个解释变量后,都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入而变得不再显著时,则将其剔除。以确保每次引入新的变量之前回归方程中只包含显著的变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止,以保证最后所得到的解释变量集是最优的。如果变量个数较少,可以手动实现;但变量较多,需要通过算法实现。


3.5 特征值与病态指数

  • 特征根分析

根据矩阵行列式的性质,矩阵的行列式等于其特征根的连乘积,因而当行列式 ∣ X ′ X ∣ ≈ 0 \left|X^{\prime} X\right|\approx0 XX0,,矩阵 X ′ X X^{\prime} X XX至少有一个特征根近似于零;反之,当矩阵 X ′ X X^{\prime} X XX至少有一个特征根近似为零时,X的列向量之间必存在多重共线性。特征根近似为零的标准可以用下面的病态指数来确定,记 X ′ X X^{\prime} X XX最大的特征根为 λ m \lambda_m λm,称
C I i = λ m λ i , i = 0 , 1 , 2 , ⋯   , k C I_{i}=\sqrt{\frac{\lambda_{m}}{\lambda_{i}}}, \quad \mathrm{i}=0,1,2, \cdots, \mathrm{k} CIi=λiλm ,i=0,1,2,,k
为特征根的病态指数。特征根个数与病态指数都包含了常数项在内。病态指数度量了矩阵 X ′ X X^{\prime} X XX的特征根散布程度,可以用来判断多重共线性是否存在以及多重共线性的严重程度。

  • 0 < C I < 10 0<CI<10 0CI10时,设计矩阵没有多重共线性;
  • 10 ≤ C I < 100 10≤CI<100 10CI100时,认为X存在较强的多重共线性;
  • C I ≥ 100 CI≥100 CI100时,则认为存在严重多重共线性。

4 多重共线性补救

4.1 经验法

  • 剔除变量法。当回归方程中存在严重的多重共线性,可以删除引起多重共线性的不重要的解释变量。但删除变量可能引发遗漏变量问题,甚至严重的内生性问题,需要谨慎考虑。
  • 增大样本容量。如果样本容量增加,则 ∑ x i 2 \sum x_i^2 xi2 也会增加,结果会减小回归参数的方差,标准误差也同样会减小。因此尽可能地收集足够多的数据可以改进模型参数的估计.
  • 变换模型形式。例如,可采用差分法,这是指将原模型变形为差分模型形式进而减低多重共线性的一个方法。将元模型

Y i = β 0 + β 1 X 1 i + β 2 X 2 i + β 3 X 3 i + ⋯ + β k X k i + u i Y_{i}=\beta_{0}+\beta_{1} X_{1 i}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+\cdots+\beta_{k} X_{k i}+u_{i} Yi=β0+β1X1i+β2X2i+β3X3i++βkXki+ui

作差分
Δ Y i = β 1 Δ X 1 i + β 2 Δ X 2 i + ⋯ + β k Δ X k i + Δ u i \Delta Y_{i}=\beta_{1} \Delta X_{1 i}+\beta_{2} \Delta X_{2 i}+\cdots+\beta_{k} \Delta X_{k i}+\Delta u_{i} ΔYi=β1ΔX1i+β2ΔX2i++βkΔXki+Δui
因为差分常常会丢失一些信息,差分模型的误差项可能是序列相关的,可能会违背经典线性回归模型的相关假设,在具体运用时要慎重。

  • 变量变换。计算相对指标、将名义数据转换为实际数据、将小类指标合并成大类指标等

4.2 逐步回归法

具体步骤如下:

  • 用被解释变量对每一个所考虑的解释变量做简单回归。、

  • 以对被解释变量贡献最大的解释变量所对应的回归方程为基础,按对被解释变量贡献大小的顺序逐个引入其余的解释变量。这个过程会出现3种情形。

    • 若新变量的引入改进了 R 2 R^2 R2和F检验,且回归参数的 t t t检验在统计上也是显著的,则在模型中保留该变量。
    • 若新变量的引入未能明显改进 R 2 R^2 R2和F检验,且对其他回归参数估计值的 t t t检验也未带来什么影响,则认为该变量是多余的,应该舍弃。
    • 若新变量的引入未能明显改进 R 2 R^2 R2和F检验,且显著地影响了其他回归参数估计值的数值或符号,同时本身的回归参数也通不过 t t t检验,则说明出现了严重的多重共线性,应剔除该变量。

4.3 岭回归法

计量经济学家们还致力于改进古典的最小二乘法,提出以采用有偏的估计为代价来提高估计量的稳定性的方法,如岭回归法、主成分法、偏最小二乘法等。

4.31岭回归含义

思想:岭回归(Ridge Regression)是A.E.Hoerl(霍尔)提出的一种改进最小二乘估计的方法,也叫岭估计(Ridge Estimate)。当解释变量之间存在多重共线性时 ∣ X ′ X ∣ ≈ 0 |X^{\prime}X |\approx 0 XX0,则方差协方差矩阵 E [ ( β − β ) ( β ^ − β ) ′ ] = σ 2 ( X ′ X ) − 1 E\left[(\boldsymbol{\beta}-\boldsymbol{\beta})(\hat{\boldsymbol{\beta}}-\boldsymbol{\beta})^{\prime}\right]=\sigma^{2}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} E[(ββ)(β^β)]=σ2(XX)1的元素变大。如果将 X ′ X X^{\prime}X XX加上一个对角矩阵 k I k\boldsymbol I kI(k>0, I \boldsymbol I I为单位矩阵),即 X ′ X + k I \mathbf{X}^{\prime} \mathbf{X}+k \mathbf{I} XX+kI,使得 ∣ X ′ X + k I ∣ ≈ 0 \left|\mathbf{X}^{\prime} \mathbf{X}+k \mathbf{I}\right| \approx 0 XX+kI0的可能性比 ∣ X ′ X ∣ ≈ 0 |X^{\prime}X |\approx 0 XX0小得多,那么通过这样改进的估计量称为岭估计量
β ~ ( k ) = ( X ′ X + k I ) − 1 X ′ Y \widetilde{\boldsymbol{\beta}}(k)=\left(\mathbf{X}^{\prime} \mathbf{X}+k \mathbf{I}\right)^{-1} \mathbf{X}^{\prime} \mathbf{Y} β (k)=(XX+kI)1XY
β ~ ( k ) \widetilde{\boldsymbol{\beta}}(k) β (k) β \beta β的岭估计量, k k k为岭估计参数。

  • 当解释变量之间存在多重共线性时,以作为 β \beta β的估计 β ~ ( k ) \widetilde{\boldsymbol{\beta}}(k) β (k)应比普通最小二乘估计稳定
  • k k k较小时,回归系数很不稳定,而当 k k k逐渐增大时,回归系数可能呈现稳定状态
  • k = 0 k =0 k=0时,岭回归估计 β ~ ( k ) = β ^ \widetilde{\boldsymbol{\beta}}(k)=\hat{\boldsymbol{\beta}} β (k)=β^,实际就是普通最小二乘估计

4.32 岭回归估计量的性质

  • 有偏性。因为

E ( β ~ ( k ) ) = E ( X ′ X + k I ) − 1 X ′ Y = ( X ′ X + k I ) − 1 X ′ E ( Y ) = ( X ′ X + k I ) − 1 X ′ X β

E(β~(k))=E(XX+kI)1XY=(XX+kI)1XE(Y)=(XX+kI)1XXβ
E(β~(k))=E(XX+kI)1XY=(XX+kI)1XE(Y)=(XX+kI)1XXβ

  • 线性性。因为

E ( β ~ ( k ) ) = E ( X ′ X + k I ) − 1 X ′ Y = w Y

E(β~(k))=E(XX+kI)1XY=wY
E(β~(k))=E(XX+kI)1XY=wY

其中 w = ( X ′ X + k I ) − 1 X ′ w =\left(\mathbf{X}^{\prime} \mathbf{X}+k \mathbf{I}\right)^{-1} \mathbf{X}^{\prime} w=(XX+kI)1X

  • V a r ( β ~ ( k ) ) ≤ V a r ( β ^ ) Var(\widetilde{\boldsymbol{\beta}}(k))\le Var(\hat{\beta}) Var(β (k))Var(β^)

岭回归估计的方差和偏倚与岭回归参数 k k k有关,岭回归参数 k k k的值越大, β ~ ( k ) \widetilde{\boldsymbol{\beta}}(k) β (k)的偏倚越大,其方差就越小。要得到方差较小的估计结果,又不得不牺牲无偏性。为此可以用兼顾方差和偏倚的最小均方误差MSE原则


4.33 岭回归参数 k k k的选择

原则上是要选择使均方误差 MSE ⁡ [ β ^ ( k ) ] \operatorname{MSE}[\hat{\beta}(k)] MSE[β^(k)]达到最小的 k k k,而最优值 k k k依赖于未知参数 β \boldsymbol \beta β σ 2 \sigma^2 σ2,因而在实际应用中必须通过样本来确定。目前还没有形成公认的选择岭回归参数的最优方法,常用的方法主要有岭迹法、方差扩大因子法、残差平方和方法。


-END-

参考文献

庞皓. 计量经济学[M].科学出版社

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/605335
推荐阅读
相关标签
  

闽ICP备14008679号