论文阅读【时间序列】DSformer

作者：黑客灵魂 | 2024-07-07 20:53:35

踩

论文阅读【时间序列】DSformer

arxive: DSformer: A Double Sampling Transformer for Multivariate Time Series Long-term Prediction
github: MTST

分类：多变量时间序列（Multivariate time series）

核心观点

多变量时间序列3个维度信息

Fig 1

变量间关联（Variable correlation）：如Fig. 1(a)所示，不同变量具有相似的变化趋势 $\rightarrow$ Variable Attention
全局信息（Global information）：如Fig. 1(b)所示，从全局来看，序列显示出一定的周期性 $\rightarrow$ Down Sampling
局部信息（Local information）：如Fig. 1©所示，局部信息 $\rightarrow$ Piecewise Sampling

个人观点：全局信息更多指周期项，局部信息更多指趋势项

整体框架

Fig 2

符号	含义
N	变量数
H	输入序列长度
L	输出序列长度
C	切分子序列数量

N 为变量数，H为输入序列长度，C是切分子序列的数量。
输入序列 $\in R^{N*H}$ ，经过Down sampling得到 $X_{ds} \in R ^{N * C * \frac{H}{C}}$ ，经过Picewise Sampling得到 $X_{ps} \in R ^{N * C * \frac{H}{C}}$ 。
在TVA-block中进行Variable Attention和Temporal Attention。其中Temporal Attention中 $\in R ^{N * C * \frac{H}{C}}$ , $\in R ^{N * \frac{H}{C} *C}$ ；Variable Attention中 $\in R ^{\frac{H}{C} * C * N}$ , $\in R ^{ * \frac{H}{C} *N *C}$ 。

Temporal Attention是子序列之间，通过比较同一变量子序列的相似度计算注意力，Variable Attention是不同子序列之间，通过比较同一位置各个变量的相似度计算注意力。

随后，Temporal Attention和Variable Attention输出 $\in R ^{N * C * \frac{H}{C}}$ 被FFN压缩成 $\in R ^{N * \frac{H}{C}}$ ，然后相加。
最后，经过一个TVA-block整理来自不同视角的信息（Down sampling和Picewise Sampling）和MLP得到输出。

采样过程

Fig 3

两种采样方式的区别在于如何将切分后的子序列重新排列。

Down Sampling: 每隔几个点取一个，用来捕获全局信息
$X^j_{ds} = [x_j, x_{j+\frac{H}{C}}, x_{j+2*\frac{H}{C}},..., x_{j+(C-1)*\frac{H}{C}}]$
Piecewise Sampling:
$X^j_{ps} = [x_{1+(j-1)*C}, x_{2+(j-1)*C}, x_{3+(j-1)*C},..., x_{j*C}]$

TVA block

Fig4
两种attention的主要区别在于X的维度变化：

Temporal Attention： $\isin R^{N * C * \frac{H}{C}}$ , $\isin R^{N * \frac{H}{C} * C}$
Variable Attention： $\isin R^{ \frac{H}{C} * C * N}$ , $\isin R^{ \frac{H}{C} * N * C}$

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/黑客灵魂/article/detail/796770