赞
踩
在如今机器学习、数据科学、人工智能热潮下,回归分析似乎成了家喻户晓的东西。实际上回归分析自Galton爵士提出以及Pearson和Fisher的理论的加持,经过一百多年的发展,早已成了发现客观规律的有力武器。回归分析的文章已经多得数不胜数了,这篇文章也许会有点不同:我一直力求详细。这篇文章是一文详解t检验的延续,从一元线性回归的理论出发,涉及到回归系数的估计、无偏性的证明、方差的计算、显著性检验和预测,再推广到多元线性回归模型(用矩阵来研究会非常方便)。
早在初中我们就学过一元一次函数:
给定
只不过我们更习惯这样的表达:
要注意的是(1)式不是回归模型,(2)式才是。究其原因在于(1)式代表一条确定的直线,而(2)式含有未知的随机扰动项。只有含随机扰动项的才是回归模型。回归模型与直线的相同点是自变量和因变量都是线性关系,不同点在于前者是不确定的,后者是确定的。
世界纷繁复杂,确定相比不确定简直是小巫见大巫。(2)式是真实的客观规律,但是未知、不可观测的。但我们可以假设要研究的因变量
假设中的
(4)式称为经验回归方程,这是对真实的、不可观测的(2)式的估计。
(2)、(3)和(4)可以推广到多个解释变量的情形:
基本假定是对于随机扰动项
![]()
相互独立
其中
由于
这一点在后面的推导中很有用。
这部分我们结合向量来推导。对于
其中随机扰动项
其中
这样模型可改写为:
1.利用最小二乘法估计回归系数并证明存在且唯一
估计回归系数的一种方法是最小二乘法(Least Square Method, LSE),为了与广义最小二乘法相区别,有人也称之为普通最小二乘(Ordinary Least Square, OLS)。如果回归方程对样本拟合得较好,能较好地反映客观规律,那么真实值
其中
只需要对于
这两式进一步化简:
解方程组(加帽子):
得到最小二乘估计:
实际上
不妨记:
那么(13)可以写为:
实际上(13)还可以改写为:
或者:
(14)在后面会用到。
有一个问题,这里求偏导数并令其为0得到的是
由于
我们定义残差
那么(9)和(10)说明了如下事实:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。