赞
踩
目录
5.1Variance Inflation Factor (VIF)差异性通货膨胀系数(VIF)
- import warnings
- warnings.filterwarnings("ignore")
-
- import matplotlib.pyplot as plt
- %matplotlib inline
-
- import math
-
- # imports
- import pandas as pd
- import numpy as np
-
- # from sklearn.linear_model import LinearRegression # for ml
- import statsmodels.api as sm
-
- # statistical tests
- from statsmodels.tsa.stattools import adfuller, kpss # stationarity
- from statsmodels.stats.api import linear_harvey_collier # linearity
- from statsmodels.stats.diagnostic import linear_rainbow # linearity
- from statsmodels.stats.outliers_influence import variance_inflation_factor as vif # multicollinearity
- from scipy.stats import shapiro, anderson # normality
- from statsmodels.stats.stattools import durbin_watson # autocorrelation
- from statsmodels.stats.diagnostic import acorr_ljungbox, acorr_breusch_godfrey # autocorrelation
- from statsmodels.stats.diagnostic import het_breuschpagan # heteroscedasticity
- from statsmodels.stats.api import het_goldfeldquandt # heteroscedasticity
-
- # stat graphics
- from statsmodels.graphics.regressionplots import plot_ccpr # partial residuals plot
- from statsmodels.graphics.gofplots import qqplot # qq plot for normality of residuals
- from statsmodels.graphics.tsaplots import plot_acf, plot_pacf # autocorrelation plots
- # 读取数据,并打印前5行
- data = pd.read_csv('data/regdat1.csv', sep=';', header=0, index_col=0)
- data.head()
- #建立模型
- X = data.iloc[:, 1:]
- y = data.iloc[:, 0]
- reg_model = sm.OLS(y, X)
- reg_model = reg_model.fit()
-
- reg_summary = reg_model.summary()
- reg_summary
回归模型和系数的显著性:t准则、F准则。
变量和残差的稳定性:增强Dickey-Fuller检验(ADF)、Phillips-Perron检验(PP)、Kwiatkowski-Phillips-Schmidt-Shin检验(KPSS)。
因变量和自变量之间的依赖线:部分残差图,Ramsey RESET检验。
无多线性:VIF和条件指数。
正常残差:Q-Q图、Shapiro-Wilk检验、Kolmogorov-Smirnov检验、Jarka-Ber检验和Anderson-Darling检验。
无自相关:ACF和PACF图、Darbin-Watson检验、Broisch-Godfrey检验和Young Box检验。
残余物的同质性:残余物与对应值的关系图,Broysch-Pagan试验和Goldfeldt-Quandt试验。
回归系数稳定性:前向和后向稳定性检验,滚动周检验。
下文将详细介绍所有这些测试及其结果。
- # 阈值
- p_value_threshold = 0.05
- confidence_threshold = 0.01
- removal_rate = 0.3 # 30%
- number_of_out_of_sample_data = 9
变量值--T-тест
reg_summary.tables[1]
回归系数在5%的水平上显著。
回归方程的显著性--F-тест
reg_summary.tables[0]
F统计值为71.83,P值=6.1e-16,因此,回归方程显著。
对于一个时间序列模型,所有的因变量、自变量和残差都必须使用ADF检验、PP检验和KPSS检验来检验其稳定性。每个变量必须至少通过2次固定测试。对于每个固定检验,必须对因变量、自变量和残差进行固定性评价。
零平均静止性(仅针对残留物);
单一平均静止性;以及
这是一种趋势性的静止。
确定的趋势静止性是指变量包含趋势(
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。