赞
踩
M——variate numer
L——seq_len(序列长度)
T——seq_pred(预测长度)
Channel Independence
Patching
对于每一个单变量序列(已经通过转换从[L,M]->[M,L]),将长为L序列切成N块,每块长度P(图1)。每一个时间段视为一个 token(这不同于很多 Transformer-based 模型将每一个时间点视为一个token)。过程有点类似一维的cnn,也可以设置stride长度来决定patch块与patch块之间是否重合。每个Patch块,就相当于transformer的一个输入。
通过这种方式,序列长度从L变成了N,可以大大缩减计算量和显存占用。另外一个要提到的点是Position Embedding,论文用的是learnable的PE,用nn.init.uniform_(W_pos, -0.02, 0.02)来初始化。
图1 Patching 过程, 将长为L序列切成N块,每块长度P
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。