赞
踩
一、针对的问题
本篇论文主要是针对Transformer在时间序列预测上的表现比线性模型差的问题来考虑如何改进Transformer模型,分析了目前的模型,表明Transformer可能不适合多变量时间序列预测。
这个图主要是对比了Transformer和iTransformer的区别,首先对于Transformer来说,在多变量时间序列预测中,会在同一时间提取多个变量的值组成一个向量,然后再这个向量上嵌入时间标记,然后经过编码器和解码器得到预测值。对于iTransformer来说,按照通过一种类来提起向量,在每一个变量的时间序列上嵌入时间标记。
这篇文章的贡献首先就是分析了Transformer在多变量时间序列预测的问题,然后提出了一个iTransformer结构可以有效地解决Transformer在多变量时间序列预测问题上不如线性模型的问题,最后通过了实验进行了验证。
二、模型架构
首先将多元时间序列输入到Embedding中,然后对每一种变量加上时间标签,将有了时间标签的变量输入到TrmBlock中,首先就是经过一个注意力机制,将X分为三份经过不同的线性层作为QKV,将QK相乘缩放以当做相关性的度量,Softmax化后乘以Values。从注意力层出来后,做一个残差连接,之后进入到LayerNorm做一个归一化操作,这样可以解决非平稳问题,减少不同度量造成的差异,之后会经过一个前馈神经网络,从前馈神经网络出来后,再进行一次残差连接,最后再经过一个LayerNorm层,将预测结果输出。
三、实验
本文使用了7个数据集,分别是ECL、ETT、Exchange、Traffic、Weather、Solar-Energy、PEMS。
首先做的是在这七个数据集上进行多元时间序列预测,结果表明,使用iTransformer在大部分数据集的效果都优于其他模型。
其次对模型进行消融实验,对模型进行了替换和移除组件实验,分别对注意力机制和前馈神经网络进行替换和移除,结果表明iTransformer的表现较好。
四、总结
本文提出了在不修改任何固有模块的情况下对Transformer的结构进行反转的ittransformer。iTransformer将独立序列作为变量标记,通过注意捕获多变量相关性,并利用层归一化和前馈网络学习序列表示。对于改进时间序列预测模型,我认为这种改进思路可以应在日后对模型调整和改进上。
论文地址:https://arxiv.org/abs/2310.06625
代码地址:GitHub - thuml/Time-Series-Library: A Library for Advanced Deep Time Series Models.
参考文献:时间序列机器学习论文:iTransformer_itransformer论文-CSDN博客
本文只是用于作者自己读论文时的一些笔记,由于本人刚开始学习深度学习,了解的还不够全面,而且是刚开始写博客,其中语句不通顺等问题可能会存在,如有错误和问题,欢迎指出。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。