赞
踩
文章信息
论文题目为《ITRANSFORMER: INVERTED TRANSFORMERS ARE EFFECTIVE FOR TIME SERIES FORECASTING》,该文发表于2024ICLR会议上。文章提出了一种倒置Transformer,旨在解决Transformer在长时多变量时间序列预测所遇到的挑战。
摘要
最近线性预测模型在时间序列领域的发展对基于Transformer架构的改进模型提出了质疑。这些预测者利用Transformer对时间序列的时间标记(token)的全局依赖性进行建模,每个标记由同一时间步的多个变量组成。然而,由于性能下降和计算量激增,Transfoemer在预测具有较大回看窗口(lookback windows)的序列时面临挑战。此外,每个时间标记的嵌入(embedding)融合了代表潜在延迟事件和不同物理测量的多个变量,这可能无法学习以变量为中心的表征并导致无意义的注意图。在本工作中,本文考虑了Transformer组件的作用,并在不修改基本组件的情况下重新设计了Transformer架构。提出了一种简单地将注意力和前馈网络应用于反转维度的iTransformer。具体而言,将单个序列的时间点嵌入到变量标记中,由注意机制利用变量标记来捕获多变量相关性;同时,对每个变量标记应用前馈网络学习非线性表征。iTransformer模型在具有挑战性的真实数据集上达到了最好的性能,这进一步增强了Transformer系列模型的性能,跨不同变量的泛化能力,以及更好地利用任意回看窗口,使其成为时间序列预测的基本架构(backbone)的一个很好的选择。
引言
Transformer在自然语言处理和计算机视觉领域取得了巨大成功,并成为遵循缩放定律的基础模型。受许多领域成功应用的启发,具有强大的依赖关系提取能力和提取序列中多层次表示的能力的Transformer在时间序列预测中应用。然而,研究人员最近开始质疑基于Transformer预测模型的有效性,这些预测模型通常将同一时间步的多个变量嵌入到不可区分的通道中,并将注意力集中在这些时间标记上以捕获时间依赖性。考虑到时间点之间的数值关系,但语义关系较少,研究人员发现,简单的线性层,在性能和效率上都超过了复杂的Transformer。
考虑到基于Transformer模型的争议,本文反思了为什么Transformer在时间序列预测中比线性模型表现更差,而在许多其他领域发挥主导作用。本文注意到现有的基于变压器的预测模型结构可能不适合多变量时间序列预测。如图1顶部所示,值得注意的是,由不一致的测量记录的基本上表示完全不同物理含义的同一时间步的点被嵌入到一个具有消除的多元相关性的标记中。而单个时间步形成的标记由于同时存在的时间点所表示的过度局部的接受域和时间不对齐的事件而难以显示有益信息。
考虑到将同一时间步的多变量点作为(时间)标记嵌入的潜在风险,本文对时间序列采取了相反的看法,并将每个变量的整个时间序列独立嵌入到(变量)标记中,通过反转,嵌入令牌聚合了序列的全局表示,这些表示可以更加以变量为中心。同时,前馈网络可以熟练地学习任意回溯序列编码的不同变量的泛化表示,并解码以预测未来序列。基于上述动机,本文提出了iTransformer,贡献体现在三个方面:
1.对Transformer的体系结构进行了反思,并指出标准Transformer组件在多变量时间序列上的提取能力尚未得到充分的开发。
2.本文提出了iTransformer,它将独立的时间序列作为标记,通过自关注来捕获多元相关性,并利用层归一化和前馈网络模块来学习更好的序列-全局表示,用于时间序列预测。
3.在实验上,iTransformer在真实数据集上具有较好的性能,并广泛地分析了倒置模块和架构选择,为未来基于Transformer的预测模型的改进指明了一个有希望的方向。
图1 Tranformer与iTransformer的对比
方法
1.问题定义:在多元时间序列预测中,给定历史观测值,T表示历史时间步长和N表示变量数目,预测未来的S个时间步长。为方便起见,表示时间点t所有变量的观察值,表示作为第n个变量的整个时间序列。值得注意的是,由于数据集中变量之间的系统时间滞后,可能不包含本质上反映真实场景中相同事件的时间点。此外,的元素在物理测量和统计分布中可以彼此区分,而变量通常具有相同的特征。
图2 iTransformer模型结构
2.结构概述:本文提出的iTransformer采用了Transformer的纯编码器架构,包括嵌入(embedding)、投影(projection)和Transformer块。大多数基于Transformer的预测者通常将同一时间步的多个变量视为标记,并遵循预测任务的生成公式。相反,本文提出的仅编码的iTransformer侧重于多元序列的表示学习和自适应相关。由底层复杂过程驱动的每个时间序列首先被标记以描述变量的性质,通过自自注意力用于相互作用,并由前馈网络单独处理用于序列表示。基于以上考虑,在iTransformer中,根据历史序列预测各特定变量的未来序列的过程可简单表述为:
3.iTransformer的组件:iTransformer由层归一化、前馈网络和自关注模块组成的块L堆栈而成。
(1)层归一化:层归一化最初是为了提高深度网络的收敛性和训练稳定性而提出的。在典型的基于transformer的预测器中,该模块将同一时间步的多变量表示归一化,逐渐将变量彼此融合。一旦收集到的时间步不代表相同的事件,该操作还将引入非因果或延迟过程之间的交互噪声。在本文的倒置版本中,将归一化应用于个体变量的级数表示,如下式,这已经被研究并证明在解决非平稳问题方面是有效的。此外,由于所有序列作为(变量)标记都归一化为高斯分布,因此由不一致的测量引起的差异可以减少。相比之下,在以前的体系结构中,时间步长的不同标记将被归一化,导致时间序列过平滑。
(2)前馈网络:Transformer采用前馈网络(FFN)作为编码标记表示的基本构建块,并对每个标记进行相同的应用。如前所述,在原始Transformer中,构成标记的同一时间步的多个变量可能定位不当,并且过于局部化,无法显示足够的预测信息。在倒置版本中,FFN利用每个变量标记的序列表示。通过普遍近似定理,他们可以提取复杂的表示来描述时间序列。通过倒置块的堆叠,他们致力于对观察到的时间序列进行编码,并使用密集的非线性连接解码未来序列的表示,这是有效的,因为最近的工作完全建立在MLP上。
(3)自注意力:以往的预测者通常采用注意机制来促进时间依赖性建模,而倒置模型将一个变量的整个序列视为一个独立的过程。具体而言,通过对每个时间序列,自关注模块采用线性投影获取查询、键和值,其中dk为投影维数。由于每个标记先前都在其特征维度上进行了归一化,因此条目可以在一定程度上揭示变量相关,并且整个分数图显示了成对变量标记之间的多变量相关性。因此,高度相关的变量将在下一次表示与值V的交互中获得更大的权重。基于这种直觉,所提出的机制被认为对多变量序列预测更为自然和可解释。
实验
本文在各领域时间序列预测应用中全面评估了所提出的iTransformer,验证了所提出框架的通用性,并进一步深入研究了在时间序列的倒维上应用Transformer组件的有效性。
1.预测结果:本文选择了10个公认的预测模型作为基准模型,包括(1)基于Transformer的方法:Autoformer、FEDformer、Stationary、Crossformer、PatchTST ;(2)基于线性的方法:DLinear 、TiDE 、RLinear ;(3)基于tcn的方法:SCINet、TimesNet 。综合预测结果列于表1中,最好的用红色表示,第二个用下划线表示。MSE/MAE越低,预测结果越准确。与其他预测器相比,iTransformer特别擅长预测高维时间序列。此外,PatchTST作为之前的最先进的技术,在PEMS数据集的许多情况下失败,这可能源于数据集的序列波动极大,PatchTST的补丁机制可能会失去对特定位置的关注,以应对快速波动。相比之下,本文提出的模型可以更好地应对这种情况,该模型将整个序列的变化集合起来进行序列表示。值得注意的是,作为明确捕获多变量相关性的代表,Crossformer的性能仍然低于iTransformer,这表明来自不同多变量的时间未对齐patch的相互作用将为预测带来不必要的噪声。因此,原始Transformer组件能够胜任时间建模和多元相关,并且所提出的倒置体系结构可以有效地处理现实世界的时间序列预测场景。
表1 预测结果
2.模型的普遍性
(1)倒置结构的有效性:本节在不同的基于Transformer模型中加入本文所提出的倒置框架,如表2所示。总体而言,它在Transformer上的平均提升率为38.9%,在Reformer上为36.1%,在Informer上为28.5%,在Flowformer上为16.8%,在Flashformer上为32.2%,这揭示了之前Transformer架构在时间序列预测上的不当使用。此外,由于我们的倒置结构在变量维度上采用了注意机制,因此引入具有线性复杂性的有效注意本质上解决了由于变量众多而导致的计算问题,这在现实世界的应用中很普遍,但对于通道独立性来说可能会消耗资源。因此,iTransformer的思想可以在基于Transformer的预测器上广泛实践。
表2 采用倒置结构所获得性能提升
(2)变量泛化:通过反转普通Transformer进行反求,模型被赋予了对未知变量的泛化能力。首先,得益于输入标记数量的灵活性,变量通道的数量不再受到限制,因此可以从训练和推理中变化。为了验证假设,我们将反转与另一种泛化策略进行比较:通道独立,训练共享骨干来预测所有变量。我们将每个数据集的变量划分为5个文件夹,只使用一个文件夹的20%的变量训练模型,直接预测所有变量而不进行微调。我们在下图中比较了性能,每个柱状图表示所有文件夹的平均结果,以避免分区的随机性。CI-Transformer在推理过程中需要很长时间逐一预测每个变量,而iTransformer直接预测所有变量并且通常呈现较小的增长,这表明FFN有能力学习可转移的时间序列表示。这为在iTransformer上构建基础模型留下了一个潜在的方向,在这个基础模型中,具有不同数量变量的多种多元时间序列可以可行地一起训练。
图3 变量泛化
(3)增加历史时间步长度:以往的研究发现,Transformer的预测性能并不一定随着回看长度的增加而提高,这可以归因于对不断增长的输入的注意力分散。然而,期望的性能改进通常是基于线性预测的,理论上由统计方法支持,利用扩大的历史信息。由于注意力和前馈网络的工作维度被颠倒,我们在下图通过增加历史时间步长度来评估Tranformer的性能。结果令人惊讶地验证了在时间维度上利用MLP的合理性,这样Transformer就可以从扩展的回顾窗口中受益,从而获得更精确的预测。
图4 历史时间步对性能的影响
3.消融实验:为了验证变压器组件的有效性,本文进行了详细的消融实验,包括更换组件(Replace)和移除组件(w/o)实验。
表3 消融实验
结论
考虑到多元时间序列的特点,本文提出了在不修改任何固有模块的情况下对Transformer的结构进行反转的iTransformer。iTransformer将独立序列作为变量标记,通过注意捕获多变量相关性,并利用层归一化和前馈网络学习序列表示。在实验中,iTransformer实现了最先进的性能,并通过实验分析了框架的通用性。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。