赞
踩
点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
讲者简介
董家祥:
个人简介:清华大学软件学院四年级博士生,研究方向主要包括时间序列分析,时序表征学习
Title
SimMTM:一个简单的时间序列的掩码预训练框架
Content
内容简介
时间序列分析有着广泛的应用场景。最近,为了减少数据标注成本并有利于各种任务,自监督预训练引起了人们的极大兴趣。一种主流预训练范式是掩码建模(mask),它通过学习基于未遮挡部分重建遮挡部分来成功地预训练深度模型。然而,由于时间序列的语义信息主要包含在时序变化中,基于随机遮挡部分时间点的标准方法将严重破坏时间序列的时序变化信息,使得重建任务难以指导表示学习。因此,本文提出了SimMTM,一种基于掩码建模的简单的时间序列预训练框架。启发于流形学习的近邻聚合思想,SimMTM提出通过流形外部的多个近邻序加权聚合来恢复掩码时间点,通过多个掩码序列间的信息互补并适应性的聚合来简化重建任务。SimMTM进一步学习并揭示了流形的局部结构,这有助于时间序列的掩码建模。实验上,与最先进的时间序列预训练方法相比,SimMTM在预测和分类两个典型的时间序列分析任务中实现了最先进的微调性能,涵盖同领域和跨领域两种实验设置。
论文链接
https://arxiv.org/pdf/2302.00861.pdf
代码链接
https://github.com/thuml/SimMTM
背景介绍
时间序列的数据作为现实世界数据当中的一种重要的数据承载形式,已经被广泛地应用于例如能源交通、金融气象与医疗等各行各业当中。但是与此同时,对时间序列的数据进行分析也变得越来越重要。
传统的对于时间序列数据进行分析的方法主要还是集中在统计学和数学建模的方法,而近年来随着深度学习技术的蓬勃发展,一系列的技术壁垒都被其所攻克,所以使用该方法进行时间序列的分析也叫做深度时序分析。
所谓深度时序分析,指通过使用深度学习的方法来完成时间序列的分析任务。常见的一些比较常用的时间序列分析任务包括时间序列的预测、时间序列的分类、时间序列的异常检测以及时序填补等等,这些都有着非常广泛的实际应用前景。
时间序列分析
时间序列的预测任务是指基于可观测到的过去的时间序列的信息来预测未来的时间序列的信息,又可以基于过去和未来预测时间序列长度的不同来分为长时预测和短时预测两类。时间序列的预测被广泛应用于如天气预报、能源规划等各个领域,而时间序列分类任务则是针对具体的应用场景来通过捕捉时间序列的整体的趋势或者变化规律来对序列自身进行类别划分的过程。常见的时间序列的分类任务包括动作识别、医疗诊断等等。
虽然现实世界当中每天都会产生很大量的时间序列的数据,但是由于时间序列的数据并不像自然语言数据和图像数据那样容易理解,所以对于时间序列的数据标注十分困难,在该领域往往存在着数据量虽然很大但是标注数据不足的问题。
时间序列的预训练和微调
当下,深度模型的预训练作为目前最为重要且成功的方案之一,被广泛应用于计算机视觉和自然语言处理领域深度模型的预训练。它通过对模型进行预训练可以有效地提高模型的泛化能力,减少标注数据的需求,提高模型的表现,从而缓解由于部分领域标注数据不足而导致的模型效果不佳的问题。
本篇工作的核心即探索更适合于时间训练领域的无监督训练方法,换句话说,也就是在大规模的时间训练的数据集上设计合理的无监督信号,来指导模型进行自主的训练过程。
作者将深度模型作为知识的间接载体去学习在时间序列当中的可迁移的持续表征,然后将其应用到下游多样化的时序分析任务当中进行微调,从而提提升时间列分析任务的整体效果。
但是时间序列数据不同于图像和自然语言数据,图像数据的预训练主要是建模图像中的基本视觉元素,而自然语言的预训练主要建模语言中通用的语义信息和语义关联关系。
时间序列的预训练则更关注于分布在时间序列中的持续变化信息的建模,例如时间序列的连续性、周期性以及趋势变化等等。时间序列的上升、下降和波动就是最基本的时间序列的变化信息,而基本的时间序列的变化信息相互组合,又能生成更加复杂多样的时间序列的变化信息,所以如何在大量的多样性非常丰富的时间序列领域来建模时序变化,是时间序列预训练过程需要解决的关键性问题,也是最核心的挑战。
然而在真实的场景当中,时间序列的变化非常复杂,并且会因为噪声过多、信息丢失等各种各样的原因,导致时间序列关键变化的缺失或者在时间训练中存在多个时序变化混杂在一起很难区分的情况。所以在预训练的阶段设计出准确去捕捉这些时序变化信息的无监督训练信号是十分困难的,并且时间序列的分析任务多种多样,不同的任务依赖于不同的表征的建模层次,那么如何在时间序列的预训练的过程当中,使得预训练的时序表征更加通用,也是需要重点考虑的问题。
CV和NLP的预训练
目前在计算机视觉和自然语言处理领域,较为经典且应用广泛的预训练方法主要分为掩码建模和对比学习两类。对比学习最早被应用在计算机视觉领域,通过设计一些合理的图像的增广方式来构建图像数据的不同视角,然后进行实例级的对比训练。与对比学习不同,掩码建模是通过优化模型对于遮挡部分的重建能力,它更擅长进行细粒度的表征建模。
然而在标准的掩码建模方法当中,无论是自然语言处理领域当中的mask的语言建模,还是计算机视觉领域当中的mask的图像建模,它都是通过对原始的数据进行一定比例的随机遮挡,然后基于未遮挡的部分对遮挡部分的重建过程。
这种过程如果在时间序列的数据当中,不合理的遮挡比例很容易使时间序列当中关键性的持续变化信息遭到破坏,致使时间序列的信息缺失,重建任务过于困难,而无法学习到想要的合理的时间序列的变化信息。
如果将时间序列的变化看成时间窗口,在流形上的变化过程看作掩码的时间序列,由于信息遭到破坏则会被置于流形之外,所以标准的掩码建构过程可以被视为是基于单个的流形外的掩码时间序列来重建流形上的原始时间序列的过程。
作者启发于流行学中的近邻聚合思想,通过对原始序列进行随机多次的遮挡,来生成表示原始时间序列不同视觉信号的多个掩码时间序列,最后通过多个掩码序列之间的相互协调来完成原始时间序列的重建过程,这就可以有效缓解上述说到的关键时间序列变化信息被破坏而导致的序列无法重建的问题。
相比于标准的掩码建模的过程,基于近邻聚合的掩码重建的过程通过随机多次的遮挡,来生成原始时间序列的不同的信息的视角。这些不同的掩码时间序列的信息之间可以互相补充,并且通过可学习的近邻聚合的权重对多个掩码序列的信息进行加权聚合,完成原始时间序列的重建过程。它对掩码的比例不再那么敏感,并且重建的过程也更加稳定,更加符合于时间序列的领域特点。
SimMTM框架
整体架构
基于以上的思想,作者提出了一个简单的时间序列掩码建模的框架SimMTM。它首先对原始序列进行随机的多次遮挡,然后生成原始时间序列的多个掩码时间序列,再将其统一输入到模型当中,生成原始时间序列和掩码时间序列的点击和序列级的表征;其次通过计算原始时间序列与掩码时间序列的序列级的表征相似性,对不同序列的点级表征进行加权聚合,最后再将其聚合后的表征输入到一个简单的线性的编码器中,完成原始序列的重建过程。
核心步骤
整个建模方法包括四个核心步骤:第一,原始时间序列的多次随机掩码,即生成原始时间序列x的M个掩码时间序列;第二,原始时间序列和掩码时间序列的表征学习,将原始时间序列x和其掩码时间序列x拔共同输入到模型中,分别经过模型的Encoder和Projector层获取其点级表征集合Z和序列级表征集合S;第三,原始时间序列和掩码时间序列的序列级表征相似度学习,即通过简单的cosine相似度计算,获得不同序列的序列级相似度矩阵R;最后,基于序列级表征的相似度R对多个掩码时间序列的点级表征Z进行信息聚合后,重建原始时间序列x。
预训练过程
SimMTM的预训练过程包括两步:分别是序列重建和一致性学习过程。序列的重建过程是一个标准的MSE重建loss,用于控制聚合后重建的序列表征x帽拟合原始的时间序列x;而对于一致性学习过程,SimMTM认为原始时间序列与其自身的掩码序列互为正例,与其他序列及其他序列的掩码序列互为负例,通过对比式的调整正、负例间的序列级表征距离,并基于原始时间序列与自身掩码序列的相似度,控制多个掩码序列间的聚合权重,实现可学习的近邻权重聚合过程。
实验
预测和分类任务上的对比实验
在实验部分,该篇工作在时间序列的预测和分类两个主流的时序分析任务上进行了效果验证。同时包括in-domain,cross-domain,unified和Official implementation encoder多个实验设置,并在12个公共数据集上对比了6个先进的基于不同思想设计的时间序列预训练或表征学习的基线方法。
从实验结果中看,在分类任务上,基于对比学习设计的基线方法具有不错的效果,说明对比学习的序列级表征建模更适合处理high-level的时序分类任务,而基于掩码建模设计的Ti-MAE、TST等方法则在时序预测任务中取得了更好的效果,说明其建模了更好的low-level的细粒度的时序表征。
然而,不管是时间序列的预测还是分类任务,SimMTM的效果均优于全部的基线方法,取得了最优效果。这说明了SimMTM的基于序列级表征相似性进行多掩码序列的点级别表征聚合重建的设计思路,生成了更加通用且有效的时间序列表征,同时兼顾了high-level和low-level的时序表征建模。
实验结果的细节对比如下图所示:
消融实验
除了主实验外,这篇工作也进行了一系列的模型分析实验和消融实验,在方法的通用性上,作者选取四个先进的时间序列基础模型,包括:vanilla的Transformer, Autoformer, Nsformer和PatchTST,实验结果表明,SimMTM可以一致性的提高这些多样化基础模型的性能。
限制性微调数据实验
此外,为了进一步验证SiMTM在有限数据规模下的效果,该篇工作还进行了限制性微调数据实验,分别验证在下游数据量仅有实际的10%、25%、50%、75%时的微调效果。实验结果表明,在有限的数据场景下,SimMTM依然取得了不错的效果,进一步证明了SiMTM可以有效地提取数据中的宝贵知识,即使在限制数据量的场景下,依然可以明显提高微调性能。
参数分析
SimMTM的核心是多掩码时间序列的近邻聚合重建,这里面有两个十分重要的超参数,一个是生成掩码序列的个数M和随机掩码比率r。这两个参数的关系十分紧密,因为,如果掩码比率过大且掩码个数过少会导致信息缺失严重,重建过于困难。而掩码比率过小且掩码序列个数过多,又会导致信息过分冗余,重建任务较为简单。在文章中,作者进一步探究了SiMTM中掩码比率r和掩码序列个数M之间的关系。
实验结果表明,掩码个数M和掩码比率r在一定范围内存在正比关系,当掩码个数为1时,任务退化为标准的掩码建模方法。随着掩码比率r的增加,单掩码重建效果变差,而适当的增加掩码数目M,效果则会进一步提升。所以,合理的掩码比率与掩码个数的权衡对SiMTM来说是十分关键且重要的。
可视化对比
该篇工作的附录中,还针对标准掩码建模和SimMTM进行了重建效果的可视化对比,实验发现标准掩码重建过程随着掩码比率的增加,序列的重建效果越来越差,当掩码比率为75%时已经几乎无法正常完成时间序列的掩码重建任务。而相比于标准掩码建模方法,SimMTM依然可以重建出原始时间序列的变化趋势,且重建效果更为稳定,这也进一步证明了多掩码聚合重建在时间序列掩码建模领域中的重要性。
总结
本文介绍了SimMTM,一个简单的时间序列的掩码预训练框架。通过将掩码建模与流形学习联系起来,SimMTM提出了通过对流形外的多个近邻进行加权聚合来恢复掩码时间点的时间序列预训练方法,该方法通过将多个掩码序列中损坏但互补的时序变化组合在一起,从而有益于时间序列的重建。SimMTM进一步学习流形的局部结构,这有助于掩码建模。实验上,SimMTM可以最大限度地弥合预训练模型和微调模型之间的差距,从而与最先进的时间序列预训练方法相比,在不同的预测和分类任务中实现了先进的效果,涵盖了同领域和跨领域两种实验设置。
提醒
点击“阅读原文”跳转到01:27:30
可以查看回放哦!
往期精彩文章推荐
记得关注我们呀!每天都有新知识!
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了1400多位海内外讲者,举办了逾600场活动,超600万人次观看。
我知道你
在看
哦
~
点击 阅读原文 观看回放!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。