赞
踩
这篇文章来解读Informer,文章的出发点是利用Transformer来解决长序列时序预测问题【Long sequence time-series forecasting ,LSTF】,数据集为电力行业的变压器负荷、用电量等数据,获得2021年 AAAI Best Paper。恰好,作者之前【2017年】也有过国家电网售电量预测项目实操经验,对电力行业的预测痛点和难题颇为熟悉,因此就细致研究下该论文提出的方法。
Paper 传送门:Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting
许多真实世界的应用需要对长序列时间序列进行预测,如用电计划。长序列时间序列预测( Long sequence time-series forecasting LSTF)对模型的预测能力提出了很高的要求,即能够有效地捕捉输出和输入之间精确的长期依赖耦合( long-range dependency coupling)。最近的研究表明,Transformer 具有提高预测能力的潜力。然而,Transformer 存在一些严重的问题,使它不能直接应用于 LSTF,包括平方时间复杂度( quadratic time complexity)、高内存使用以及编码器-解码器架构固有的局限性。为了解决这些问题,我们设计了一个有效的基于Transformer 的 LSTF 模型,称为 Informer,它具有三个明显的特征: (i) ProbSparse self-attention 机制,在时间复杂度和内存使用上达到 O ( L ∗ log L ) O(L *\log L) O(L∗logL),并且在序列的依赖对齐上具有可比的性能。(ii) self-attention 蒸馏机制通过减半 (halving)的级联层输入突出了注意力,有效地处理极长输入序列。(iii)生成式风格的解码器虽然概念上简单,但只需一次forward 运算就可以预测出长时间序列,而不需要一步步地进行,大大提高了长时间序列预测的推理速度。在四个大规模数据集上的大量实验表明, Informer 的性能明显优于现有算法,为 LSTF 问题提供了一种新的解决方案。
代码已开源:Informer
长序列时序预测问题对模型能力提出了更高的要求,如下图:
传统的预测方法如LSTM,在预测超过一定长度时,性能迅速下降。因此,作者团队提出,能否利用Transformer方法来预测长序列?
原始的Transformer在LSTF问题上有三个明显的缺陷:
作者团队专研以上几个问题,提出Informer预测网络,主要贡献有:
Informer结构图:
Self-attention Distilling
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。