赞
踩
AIC = (-2)ln(模型的极大似然函数) + 2(模型的独立参数个数)
对于自回归
A
R
(
k
)
AR(k)
AR(k)模型,用前
k
k
k期观测值的线性组合拟合当期序列取值,通过选择回归系数使得预测误差达到最小,即选择合适的
a
i
a_i
ai,使得
s
k
2
=
1
N
∑
(
y
n
−
a
0
−
a
1
y
n
−
1
−
⋯
−
a
k
y
n
−
k
)
2
s_k^2 = \frac1N\sum(y_n-a_0-a_1y_{n-1}-\cdots - a_ky_{n-k})^2
sk2=N1∑(yn−a0−a1yn−1−⋯−akyn−k)2达到最小。
用预报误差的平均值来评价模型拟合的优劣,将其称为最终预报误差
F
P
E
=
E
(
y
n
−
a
^
k
0
−
a
^
k
1
y
n
−
1
−
⋯
−
a
^
k
k
y
n
−
k
)
2
FPE =E(y_n-\hat{a}_{k0}-\hat{a}_{k1}y_{n-1}-\cdots - \hat{a}_{kk}y_{n-k})^2
FPE=E(yn−a^k0−a^k1yn−1−⋯−a^kkyn−k)2因此模型的阶数
k
k
k的选择问题就等价为
F
P
E
FPE
FPE的极小化问题
赤池弘次已经提出,对于
A
R
(
k
)
AR(k)
AR(k)模型,
F
P
E
(
k
)
=
N
+
k
N
−
k
(
γ
(
0
)
−
∑
i
=
1
k
ϕ
^
i
γ
i
)
FPE(k) = \frac{N+k}{N-k}(\gamma(0) - \sum_{i=1}^k \hat{\phi}_i \gamma _i)
FPE(k)=N−kN+k(γ(0)−i=1∑kϕ^iγi)
熵的概念来源于信息论,一般用于衡量信源发出的信息中包含的不确定性的大小,计算公式为
H
=
−
∑
i
=
1
N
p
(
x
i
)
⋅
l
o
g
p
(
x
i
)
H=-\sum_{i=1}^Np(x_i)\cdot \mathrm{log}p(x_i)
H=−i=1∑Np(xi)⋅logp(xi)根据熵可以计算出用估计的概率分布近似代替原始数据分布时损失的信息。
K-L距离(相对熵):
设
p
p
p为实际概率分布,
q
q
q为估计的概率分布,则K-L距离为
D
(
P
∣
∣
Q
)
=
E
(
l
o
g
P
(
X
)
Q
(
X
)
)
=
∫
p
(
x
)
l
o
g
P
(
x
)
Q
(
x
)
d
x
D(P||Q)=E(\mathrm{log}\frac{P(X)}{Q(X)})=\int p(x)\mathrm{log}\frac{P(x)}{Q(x)}dx
D(P∣∣Q)=E(logQ(X)P(X))=∫p(x)logQ(x)P(x)dx,当进行拟合时,希望两分布之间的K-L距离越小越好。
设因变量
Y
Y
Y具有条件概率密度函数
f
(
y
∣
θ
)
f(y|\theta)
f(y∣θ),当使用极大似然法进行参数估计时,实际上是选择使得似然函数
L
(
θ
)
=
f
(
y
1
∣
θ
)
⋯
f
(
y
N
∣
θ
)
L(\theta) =f(y_1|\theta)\cdots f(y_N|\theta)
L(θ)=f(y1∣θ)⋯f(yN∣θ)达到最大的估计值
θ
^
\hat{\theta}
θ^作为参数值。
由于
N
→
∞
N\to \infty
N→∞时,
1
N
∑
l
n
f
(
y
i
∣
θ
)
→
E
l
n
f
(
Y
∣
θ
)
\frac1N \sum lnf(y_i|\theta)\to Elnf(Y|\theta)
N1∑lnf(yi∣θ)→Elnf(Y∣θ)。因此
θ
^
\hat{\theta}
θ^也是使得
E
l
n
f
(
Y
∣
θ
)
Elnf(Y|\theta)
Elnf(Y∣θ)达到最大的估计值。
设
Y
Y
Y的真实分布为
g
(
y
)
=
f
(
y
∣
θ
0
)
g(y)=f(y|\theta_0)
g(y)=f(y∣θ0),则K-L距离:
D
(
g
(
⋅
)
∣
∣
f
(
⋅
∣
θ
)
)
=
∫
g
(
y
)
l
n
g
(
y
)
f
(
y
∣
θ
)
d
y
=
E
l
n
g
(
Y
)
−
E
l
n
f
(
Y
∣
θ
)
D(g(\cdot)||f(\cdot|\theta))= \int g(y)\mathrm{ln}\frac{g(y)}{f(y|\theta)}dy=E\mathrm{ln}g(Y)-E\mathrm{ln}f(Y|\theta)
D(g(⋅)∣∣f(⋅∣θ))=∫g(y)lnf(y∣θ)g(y)dy=Elng(Y)−Elnf(Y∣θ)因此
θ
^
\hat{\theta}
θ^即等价于使K-L距离达到最小的参数估计,这也是极大似然法的本质。
类比 F P E FPE FPE准则,用 E [ D ( g ∣ ∣ f ( ∣ θ ^ ) ) ] E[D(g||f(|\hat{\theta}))] E[D(g∣∣f(∣θ^))]衡量参数估计量的好坏。(这里可以复习一下条件期望的知识),由于 E l n g ( Y ) E\mathrm{ln}g(Y) Elng(Y)为常数,因此只考虑 E [ E l n f ( Y ∣ θ ^ ) ] E[E\mathrm{ln}f(Y|\hat{\theta})] E[Elnf(Y∣θ^)]。
设
λ
=
max
l
(
θ
0
)
max
l
(
θ
^
)
\lambda = \frac{\max l(\theta_0)}{\max l(\hat{\theta})}
λ=maxl(θ^)maxl(θ0),则当
N
→
∞
N\to \infty
N→∞时,
−
2
l
n
λ
→
χ
2
(
k
)
-2\mathrm{ln}\lambda \to \chi^2(k)
−2lnλ→χ2(k),
k
k
k为
θ
\theta
θ的维数。
由于
E
(
χ
2
(
k
)
)
=
k
E(\chi^2(k))=k
E(χ2(k))=k,因此
2
l
(
θ
^
)
2l(\hat{\theta})
2l(θ^)比
2
l
(
θ
0
)
2l(\theta_0)
2l(θ0)平均多
k
k
k,则可以导出AIC准则。
当模型为高斯过程时,
F
P
E
FPE
FPE与AIC准则等价。
从 F P E FPE FPE准则到AIC准则的变化实际上是从预测值差异最小到预测分布差异最小的质的变化。
参考文献:
[1] 李子奈.计量经济学模型方法论的若干问题[J].经济动态,2007(10):22-30.
[2] 陈晓峰.AIC准则及其在计量经济学中的应用研究[D].天津:天津财经大学,2012.
[3] 刘璋温.赤池信息量准则 AIC 及其意义[J].数学的实践与认识,1980(03):64-72.
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。