赞
踩
文 | Vachel
编辑 | Sucie
转载:时序人
00
写在前面
时间序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列,其中隐藏着一些过去与未来的关系。时间序列分析试图通过研究过去来预测未来。
时间序列分析在工程、金融、科技等众多领域有着广泛的应用。在大数据时代,时间序列分析已经成为 AI 技术的一个分支,通过将时间序列分析与机器学习模型相结合,更好的对时间序列进行建模。
时间序列模型,早期主要是进行充分的假设与检验,例如平稳性检验,自相关性检验等,这些基础理论推动了自回归法,移动平均法,指数移动平均法等经典时间序列模型的发展。
本文从时间序列的统计分析方法出发,梳理总结有关知识,希望对大家有所帮助~
01
数学计量基础
在描述时间序列的统计分析方法之前,我们需要简单了解下概率论中的两个基础概念:协方差和相关系数。熟悉的朋友们可跳过。
假设两个随机变量X和Y满足未知的概率分布(可以是同分布也可以是不同的分布), X和Y的协方差为:
其中, 为求解数学期望的运算符。 和 分别为X和Y的均值。
协方差告诉我们两个随机变量是如何一起移动的。但只用协方差衡量变量相关性存在一些问题:协方差是有量纲的,它的大小受随机变量本身波动范围(或取值范围)所影响。因此,人们希望使用某个和协方差有关,但是又是无量纲的测量来描述两个随机变量的相关性。最简单的做法就是用变量自身的波动对协方差进行标准化,相关系数便由此得来。
令ρ表示X和Y的相关系数,它的定义为:
其中 和 分别为X和Y的标准差。通过使用X和Y的标准差对它们的协方差归一化,ρ的取值范围在 -1 到 +1 之间,即 [-1, +1]:
表示X和Y之间存在确切的线性正相关;
表示X和Y之间不存在任何线性相关性;
表示X和Y之间存在确切的线性负相关。
值得一提的是,相关系数仅仅刻画 X和Y之间的线性相关性;它不描述它们之间的(任何)非线性关系。
02
平稳性检验
平稳性是时间序列分析的基础。
通俗的理解平稳性,指直观上看当数据没有明显的模式特征的话(趋势性、季节性),我们认为它是平稳的。定义上“平稳”指固定时间和位置的概率分布与所有时间和位置的概率分布相同的随机过程。其数学期望和方差这些参数也不随时间和位置变化。
在数学上,时间序列的严平稳有着更精确的定义:它要求时间序列中任意给定长度的两段子序列都满足相同的联合分布。这是一个很强的条件,在实际中几乎不可能被满足。因此我们还有弱平稳的定义,它要求时间序列满足均值平稳性和二阶平稳性。
如果一个时间序列满足以下两个条件,则它是弱平稳的:
对于所有的时刻t,有,其中μ是一个常数。
对于所有的时刻t和任意的间隔k,值之间的协方差,其中与时间t无关,它仅仅依赖于间隔k。这称为方差平稳性。
弱平稳假设对于分析时间序列至关重要。
为了解释这一点,来看一个例子。假设我们想知道某天股票收益率的均值是多少,假设股票变化时序是平稳的,我们就可以通过过去的数据预估出未来一段时间的收益均值。不幸的是,历史只发生一次,时间也一去不复返。大部分股市时序是不符合平稳性假设的。因此这个方法对于金融数据是行不通的。
然而,在一般弱平稳的假设下,我们也可以通常假定投资品收益率序列是弱平稳的。只要有足够多的历史数据,这个假定可以用实证方法验证。比如,我们可以把数据分成若干个子集,并分别计算每个子集的统计量,然后通过统计的手段检验这些来自不同子集的统计量的一致性。对于此,更复杂的非线性模型对波动率建模(比如 GARCH),又或者把时间段细分为更短的区间,使得在每个小区间内的时间序列尽量满足弱平稳性,是常见且通用的时间序列分析方法。
有了上一节和本节的内容做铺垫,下面我们聊聊时间序列的自相关性。
03
自相关性检验
时间序列数据是一直延伸的,根据这种数据特点,一般需要我们拿当前数据与历史数据做对比,即自相关性检验。自相关性考察的是 t 时刻的值和距当前任意间隔 k时刻的值之间的线性相依关系。由于来自同一个时间序列,因此结合之前的数学基础,可以推广出自相关系数:
定义:和的相关系数称为的间隔为k的自相关系数。由第三节中介绍的相关系数的定义可知:
上面的推导中用到了弱平稳的性质,即协方差和方差的平稳性。从这个定义不难看出,当 时有:
这表示 的间隔为 0 的自相关系数恒定为 1。上面定义的 是总体的统计特性。实际中,我们仍然只能通过有限的样本数据来计算样本的统计特性。令 为与 对应的样本统计量,则有:
上式中, 是 的间隔为 k 的样本自协方差; 为 的间隔为 k 的样本自相关系数。利用相关图我们可以清晰地看到 是如何随间隔 k 变化的。
下图为两个假想时间序列的相关图。它们呈现出完全不同结构的自相关性。事实上,第一个相关图的时间序列存在明显的趋势;而第二个相关图的时间序列存在明显的周期性。这两个例子说明相关图可以告诉我们很多时间序列的内在特性。
有了以上的数学基础,在评价一个时间序列的建模是否合适时,我们可以首先找到原始时间序列和它的拟合序列之间的残差序列;然后只要画出这个残差序列的相关图就可以看到它是否含有任何模型未考虑的额外自相关性:
如果残差的相关图和之前拟合的图相似,则可以认为残差是一个随机噪声,而模型已经很好的捕捉了原始时间序列中的自相关性;
如果残差的相关图体现了额外的自相关性,它们将为我们改进已有的模型提供依据,因为这些额外的自相关说明已有模型没有考虑原始时间序列在某些特定间隔上的自相关。
04
基础时序模型 - 白噪声与随机游走
考虑时间序列 。如果该序列的成分 满足均值为0方差 且对于任意的 自相关系数均为0,则称该时间序列为一个白噪声。
根据白噪声的定义,一个白噪声序列显然满足平稳性要求。它的均值和二阶统计量为:
一个优秀的时序模型拟合出的残差序列应该(近似)为一个白噪声。因此,使用白噪声序列的性质可以帮助我们确认我们的残差序列中没有任何相关性了,一旦残差序列没有相关性便意味着模型是原始时间序列的一个良好的拟合。
将白噪声模型进行一步延伸,便得到随机游走模型,它的定义如下:
对于时间序列,如果它满足,其中是一个均值为0、方差为的白噪声,则序列为一个随机游走。
由定义可知,在任意t时刻的 都是不超过t时刻的所有历史白噪声序列的总和,即:
随机游走的序列均值和方差为:
虽然均值不随时间t改变,但是由于方差是σ的函数,因此随机游走不满足稳定性。随着t的增加,方差增大,说明其波动性不断增加。这是随机游走的一个非常重要的特性,不熟悉它往往容易造成不必要的错误。
04
时序模型 - ARMA
对于炒股的收益,大家往往有这样的感受:
在大牛市的时候,股票天天涨,万民欢腾;
在大熊市的时候,股票日日跌,戾气冲天;
在震荡市的时候,股票一买就跌,一卖就涨,颇有价格在某个区间内震荡、收益率呈现均值回复之意。
这些感受给我们的启发是,收益时序的前后观测点之间往往不是独立的,而是以某种自相关性联系在一起。因此,一个很自然的问题就是:能不能用过去的收益序列对未来的收益率建模?答案是肯定的。这就是自回归(AR)模型。
数学上,满足如下关系的时间序列被称为一个p阶的自回归模型,记为模型:
这是一个典型的线性回归模型。它和传统线性回归的不同之处在于自变量是序列自身(历史观测值),而非其他变量,这就是自回归中“自”的由来。另外, p阶的意思是模型使用当前时刻t之前的 p个观测值作为自变量对 建模。p 的取值可以是任何一个正整数,因此最简单的自回归模型就是模型()。
自回归模型不一定都满足平稳性。举一个最简单的例子,本系列初级篇介绍的随机游走模型其实就是一个一阶自回归模型,满足: 。由于 的方差是时间t的函数,因此该序列不满足平稳性。
滑动平均(MA)模型是另一个常见的线性时间序列模型。在自回归模型中,我们将收益 看作是给定阶数下历史收益时序的线性组合。与自回归模型不同,滑动平均模型将收益率 看作是历史白噪声的线性组合。
滑动平均模型是对漂移率之外“随机噪声”建模,它把这些噪声理解为不同时刻出现的影响收益率的新信息或者冲击。通过对“噪声”建模来预测当前时刻t的“噪声”,再和漂移率结合,作为t时刻的收益率预测。
数学上,满足如下关系的时间序列被称为一个q阶滑动平均模型,记为模型:
与自回归模型不同,滑动平均模型一定满足平稳性。它的序列均值为 0。它的各间隔k的自相关系数满足:
前面两节分别讨论了自回归和滑动平均模型。前者用收益率的历史对未来收益率做预测,而后者对噪声建模,其逻辑为突发信息对收益率将会造成冲击(比如上市公司超出预期的财报或者内部交易丑闻等)。
将一个 p阶的自回归模型和一个q 阶的滑动平均模型组合在一起,便得到了一个阶数为的自回归滑动平均模型(ARMA),它将 AR 和 MA 模型的优势互补起来。由于 AR 和 MA 模型都是线性模型,因此它俩的线性组合,即 ARMA 模型,也是线性模型。
数学上,满足如下关系的时间序列被称为一个阶数为的自回归滑动平均模型,记为模型:
相比较单一的 AR 或者 MA 模型,ARMA 模型拥有更多的参数。因此它出现过拟合的危险就更高。虽然它能够捕捉到两个单一模型各自所代表的时间序列自回归性,但是在确定阶数的时候,我们应时刻谨记,防止过拟合。
05
写在最后
本次为大家介绍了时间序列分析的基石:统计分析。相信各位读者通过这篇文章,可以对时间序列建模与分析有一个初步的认识,这对于进一步了解并学习时间序列领域十分重要。
接下来几周,会为大家逐步更新时间序列领域的更多知识整理,欢迎持续关注并转发。希望该系列文章能对你的研究工作带来帮助~
公众号:AI蜗牛车
保持谦逊、保持自律、保持进步
个人微信
备注:昵称+学校/公司+方向
如果没有备注不拉群!
拉你进AI蜗牛车交流群
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。