赞
踩
最近有一些时间序列相关的需求,简单梳理一下今年以来时间序列预测相关的一些论文。论文的主要渠道来源于arxiv,由于一些顶会论文没有放在arxiv上,且根据标题和个人兴趣做过一些筛选,剩下大概50+篇论文。主要覆盖的一些方向包含但不局限于时间序列预测+大语言模型、Transformer结构、线性模型、长期预测、图神经网络、对比学习、特征工程等。摘要部分机翻为主,建议根据摘要内容选择自己感兴趣的论文再去看原文,每篇论文都有相应的链接。
论文链接:http://arxiv.org/pdf/2311.04147v1.pdf
Transformer在时间序列预测方面的性能有了显著提高。最近的架构通过将时间序列分段并使用这些片段作为token来学习复杂的时间模式。片段大小控制了Transformer在不同频率上学习时间模式的能力:较短的片段对于学习局部的高频模式非常有效,而挖掘长期季节性和趋势则需要更长的片段。受到这一观察的启发,我们提出了一种多分辨率时间序列Transformer(MTST),它由多分支组成,可以同时建模不同分辨率下的多样化时间模式。与许多现有的时间序列Transformer不同,我们采用相对位置编码,这更适合提取不同尺度的周期性分量。
论文链接:http://arxiv.org/pdf/2311.03768v1.pdf
最近,自监督学习在时间序列领域中得到了广泛研究,特别是在掩码重建方面。大多数这些方法都遵循“预训练+微调”范式,其中一个新的解码器取代了预训练解码器以适应特定的下游任务,导致上游和下游任务不一致。本文首先指出,任务目标的统一和任务难度的适应对于弥合时间序列掩码重建和预测之间的差距至关重要。通过在微调阶段保留预训练的掩码标记,预测任务可以被视为掩码重建的特殊情况,其中未来值被掩盖并基于历史值进行重建。这保证了任务目标的一致性,但仍存在任务难度差距,因为掩码重建可以利用上下文信息,而预测只能使用历史信息进行重建。为了进一步缓解存在的差距,我们提出了一种简单而有效的提示标记调整(PT-Tuning)范式,其中所有预训练参数都被冻结,只有少量可训练的提示标记以逐元素方式添加到扩展的掩码标记中。
论文链接:http://arxiv.org/pdf/2310.20496v1.pdf
Basic已成为现代深度学习模型中的重要组成部分,用于时间序列预测,因为它们能够作为特征提取器或未来参考。为了有效,basic必须根据特定的时间序列数据集进行定制,并与集合中的每个时间序列展现出明显的相关性。然而,当前的方法在同时满足这两个要求方面存在局限性。为了解决这一挑战,我们提出了BasisFormer,这是一种利用可学习和可解释的basic的端到端时间序列预测架构。该架构包括三个组件:首先,我们通过自适应自监督学习获取basic,该方法将时间序列的历史和未来部分视为两个不同的视图,并采用对比学习。接下来,我们设计了一个Coef模块,通过双向交叉注意力计算历史视图中时间序列与basic之间的相似系数。最后,我们提出了一个Forecast模块,根据相似系数选择和合并未来视图中的basic,从而得出准确的未来预测。代码:https://github.com/nzl5116190/Basisformer。
论文链接:http://arxiv.org/pdf/2310.19322v1.pdf
本文介绍了ProNet,一种进行多时序预测,自适应地融合自回归(AR)和非自回归(NAR)策略。我们的方法涉及将预测时间段分成若干段,使用非自回归方法预测每个段中最关键的步骤,而其余步骤则采用自回归方法。分段过程依赖于潜在变量,通过变分推断有效地捕捉各个时间步骤的重要性。与AR模型相比,ProNet具有显著的优势,需要较少的AR迭代,预测速度更快,并减少误差积累。另一方面,与NAR模型相比,ProNet考虑了输出空间预测的相互依赖性,从而提高了预测准确性。
论文链接:http://arxiv.org/pdf/2310.17544v1.pdf
我们研究了一种新颖的特征选择集成方法,基于分层堆叠,适用于非平稳性和样本数有限但特征数较多的情况。我们的方法利用特征之间的相互依赖性,采用分层结构。首先,使用特征子集训练机器学习模型,然后使用另一种算法更新模型输出,以最小化目标损失。这种分层结构允许灵活的深度和特征选择。通过分层地利用特征的相互依赖性,我们提出的方法克服了传统特征选择方法和特征重要性评分的局限性。
论文链接:http://arxiv.org/pdf/2310.16231v1.pdf
在时间序列预测中,减少模型偏差的常见技术是使用一组预测模型,并将它们的输出汇总成一组集合预测。然而,在每个预测模型具有不同偏差的情况下,不总是清楚如何在此汇总期间加权考虑每个模型预测。我们提出了一种汇总方法,该方法对候选模型预测执行加权平均,其中权重由基于注意力的集合汇总模型学习。
论文链接:http://arxiv.org/pdf/2310.13029v1.pdf
本文描述了一种混合机器学习模型的方法,用于点预测和概率预测问题。这些原则在最近的M5竞赛中成功应用于准确性和不确定性跟踪。我们方法的关键点是:a)将任务转化为单日销售回归问题;b)信息丰富的特征工程;c)创建一组多样化的最先进的机器学习模型;d)精心构建模型调整的验证集。我们认为,机器学习模型的多样性以及验证示例的精心选择是我们方法有效性的最重要因素。尽管预测数据具有固有的层次结构(12个级别),但我们提出的解决方案没有利用这种分层方案。使用我们提出的方法,我们的团队在准确性和不确定性跟踪中都排名金牌范围内。推理代码以及已经训练好的模型可以在https://github.com/IoannisNasios/M5_Uncertainty_3rd_place 上获得。
论文链接:http://arxiv.org/pdf/2310.09751v2.pdf
多元时间序列预测在当代网络技术中扮演着关键角色。与传统方法不同,传统方法需要为特定时间序列应用领域创建专门的模型,本研究倡导跨越领域边界的统一模型范式。然而,学习一个有效的跨领域模型面临以下挑战。首先,各个领域展示出不同的数据特征,例如变量数量,这对于现有模型构成了不灵活的约束,从而造成困难。其次,模型可能会遇到难以区分各个领域数据的困难,导致我们评估中的次优性能。第三,时间序列领域的不同收敛速度也可能导致实证性能下降。为了解决这些问题,我们提出了UniTime,用于有效的跨领域时间序列学习。具体而言,UniTime可以灵活地适应具有不同特征的数据。它还使用领域说明和语言-TS变换器来提供识别信息并对齐两种模态。此外,UniTime采用掩蔽来缓解领域收敛速度不平衡问题。
论文链接:http://arxiv.org/pdf/2310.08278v1.pdf
旨在建立时间序列预测的基础模型并研究其缩放行为,我们在此介绍我们正在进行的工作——Lag-Llama。这是一个通用的单变量概率时间序列预测模型,它是在大量时间序列数据的基础上训练的。该模型在未见过的“分布外”时间序列数据集上表现出良好的零样本预测能力,优于监督基线模型。我们使用平滑断裂幂律来拟合和预测模型的缩放行为。开源代码可在https://github.com/kashif/pytorch-transformer-ts上获得。
论文链接:http://arxiv.org/pdf/2310.06625v1.pdf
近年来,线性预测模型的兴起对基于Transformer的预测器的架构修改的持续热情提出了质疑。这些预测器利用Transformer模型来建模时间序列的时间标记上的全局依赖关系,每个标记由同一时间戳的多个变量组成。然而,由于性能下降和计算爆炸,Transformer在预测具有更大回溯窗口的系列时面临挑战。此外,每个时间标记的统一嵌入将具有潜在不对齐时间戳和不同物理测量的多个变量融合在一起,可能无法学习变量为中心的表示,并导致无意义的注意力图。在这项工作中,我们反思了Transformer组件的能力,并重新设计了Transformer架构,而不对基本组件进行任何适应。我们提出了iTransformer,简单地颠倒了注意机制和前馈网络的职责。具体而言,各个系列的时间点被嵌入到变量标记中,这些标记被注意机制利用来捕捉多变量相关性;同时,前馈网络被应用于每个变量标记,以学习非线性表示。
论文链接:http://arxiv.org/pdf/2310.04948v2.pdf
探索GPT类型的架构是否可以有效地用于时间序列,捕捉内在的动态属性并导致显著的精度提高。在本文中,我们提出了一个新的框架TEMPO,可以有效地学习时间序列表示。我们专注于利用时间序列任务的两个重要归纳偏差来预训练模型:(i)分解趋势、季节和残差组件之间的复杂交互;(ii)引入基于选择的提示以促进非平稳时间序列的分布适应。
论文链接:http://arxiv.org/pdf/2310.01728v1.pdf
预训练的基础模型在NLP和CV方面取得了令人瞩目的进展,但它们在时间序列领域的发展受到了数据稀缺性的限制。最近的研究表明,大型语言模型(LLMs)具有对复杂token序列的强大模式识别和推理能力。然而,有效地对齐时间序列数据和自然语言的模态以利用这些能力仍然是一个挑战。在这项工作中,我们提出了TIME-LLM,这是一个重新编程框架,用于重新利用LLMs进行通用时间序列预测,同时保持骨干语言模型不变。我们首先通过使用文本原型重新编程输入时间序列,然后将其馈送到冻结的LLM中以对齐两种模态。为了增强LLM对时间序列数据的推理能力,我们提出了Prompt-as-Prefix(PaP),它丰富了输入上下文并指导了重新编程输入补丁的转换。LLM的转换时间序列补丁最终被投影以获得预测结果。我们的综合评估表明,TIME-LLM是一个强大的时间序列学习器,优于最先进的专业化预测模型。此外,TIME-LLM在少样本和零样本学习场景中表现出色。
论文链接:http://arxiv.org/pdf/2310.01232v1.pdf
时间序列预测面临着重大挑战,特别是当其准确性不仅仅依赖于历史值,而且还依赖于外部数据源时。这个问题在金融领域尤为普遍,因为时间序列的未来行为通常与从各种文本报告和众多经济指标中获取的信息密切相关。在实践中,关键的挑战在于构建一个可靠的时间序列预测模型,能够利用来自不同来源的数据并提取有价值的见解,以准确预测目标时间序列。在这项工作中,我们解决了这个具有挑战性的问题,并引入了一种新颖的多模态基于Transformer的模型,名为Modality-aware Transformer。我们的模型在探索分类文本和数值时间序列的能力方面表现出色,能够有效地预测目标时间序列,并通过其神经关注机制提供见解。为了实现这一点,我们开发了特征级别的关注层,鼓励模型集中关注每个数据模态中最相关的特征。通过结合所提出的特征级别关注,我们开发了一种新颖的内部模态多头关注(MHA)、模态间MHA和模态目标MHA,以在MHAs中同时考虑特征和时间关注。这使得MHAs能够生成考虑模态和特征重要性的时间关注,从而产生更具信息量的嵌入。所提出的模态感知结构使模型能够有效地利用每个模态内的信息,并促进跨模态理解。
论文链接:http://arxiv.org/pdf/2310.00655v1.pdf
尽管Transformer是近年来时间序列预测任务中占主导地位的架构,但一个根本性的挑战仍然存在:Transformer中的置换不变自注意机制会导致时间信息的丢失。为了解决这些挑战,我们提出了PatchMixer,一种基于CNN的模型。它引入了置换变体卷积结构以保留时间信息。与这个领域通常采用多尺度或众多分支的传统CNN不同,我们的方法仅依赖于深度可分离卷积。这使我们能够使用单尺度架构提取局部特征和全局相关性。此外,我们采用双重预测头,包括线性和非线性组件,以更好地建模未来曲线趋势和细节。
论文链接:http://arxiv.org/pdf/2309.11319v1.pdf
最近的CNN和Transformer-based模型尝试利用频率和周期性信息进行长期时间序列预测。然而,大多数现有的工作是基于傅里叶变换,无法捕捉细粒度和局部频率结构。在本文中,我们提出了一种Wavelet-Fourier Transform Network(WFTNet)用于长期时间序列预测。WFTNet利用傅里叶变换和小波变换从信号中提取全面的时间频率信息,其中傅里叶变换捕捉全局周期模式,小波变换捕捉局部模式。此外,我们引入了一种周期性加权系数(PWC)来自适应平衡全局和局部频率模式的重要性。
论文链接:http://arxiv.org/pdf/2308.13386v1.pdf
长期时间序列预测是一项重要任务,具有广泛的实际应用。近期的方法侧重于从单个域(例如时间域或频率域)捕获基本模式,并没有从时频域处理长期时间序列的整体视角。本文提出了一种时频增强分解网络(TFDNet),以捕获时频域中的长期基本模式和时间周期性。在TFDNet中,我们设计了一个多尺度时频增强编码器骨干,并开发了两个独立的趋势和季节时频块,以捕获多分辨率中分解趋势和季节分量内的不同模式。通过研究和整合多元时间序列的潜在不同通道相关模式,探索了时频块中核操作的不同核学习策略。
论文链接:http://arxiv.org/pdf/2308.12874v2.pdf
为了提高用于混沌系统时间动力学预测的Transformer神经网络的鲁棒性,我们提出了一种新的注意力机制,称为Easy Attention,并在时间序列重建和预测中进行了演示。由于自注意力仅利用查询和键的内积,因此证明了为捕获时间序列中的长期依赖关系所需的键、查询和softmax并非必要。通过在softmax注意力得分上实施奇异值分解(SVD),我们进一步观察到自注意力在注意力得分的跨度空间中压缩了来自查询和键的贡献。因此,我们提出的Easy Attention方法直接将注意力得分视为可学习参数。该方法在重建和预测表现出比自注意力或广泛使用的长短期记忆(LSTM)网络更强的鲁棒性和更少的复杂性。
论文链接:http://arxiv.org/pdf/2308.08469v3.pdf
在本研究中,我们利用预训练的大型语言模型(LLMs)来增强时间序列预测。与自然语言处理和计算机视觉统一模型日益增长的兴趣相呼应,我们设想创建一个类似的模型,用于长期时间序列预测。由于缺乏大规模时间序列数据来构建稳健的基础模型,我们的方法LLM4TS侧重于利用预训练LLMs的优势。通过将时间序列拼接与时间编码相结合,我们增强了LLMs处理时间序列数据的能力。受聊天机器人领域监督微调的启发,我们优先采用两阶段微调过程:首先进行监督微调以使LLMs朝向时间序列数据,然后进行任务特定的下游微调。此外,为了在不进行大量参数调整的情况下释放预训练LLMs的灵活性,我们采用了几种参数高效微调(PEFT)技术。借助这些创新,LLM4TS在长期预测方面取得了最先进的结果。由于从预训练LLMs转移的知识,我们的模型还显示出作为强大表示学习器和有效的少样本学习器的异常能力。
论文链接:http://arxiv.org/pdf/2308.04791v2.pdf
最近,Transformer 在长期时间序列预测 (LTSF) 任务中的优越性受到了挑战,特别是最近的研究表明,简单的模型可以胜过许多基于 Transformer 的方法。这表明,在充分利用 Transformer 在 LTSF 任务中的潜力方面仍存在显著差距。因此,本研究调查了将 Transformer 应用于 LTSF 时的关键问题,包括时间连续性、信息密度和多通道关系等方面。我们引入了 Placeholder-enhanced Technique (PET) 来增强 Transformer 在 LTSF 任务中的计算效率和预测精度。此外,我们深入探讨了更大的补丁策略和通道交互策略对 Transformer 性能的影响,特别是 Long Sub-sequence Division (LSD) 和 Multi-channel Separation and Interaction (MSI)。这些策略共同构成了一种新型模型,称为 PETformer。
论文链接:http://arxiv.org/pdf/2308.03274v1.pdf
多元时间序列的长期预测旨在预测数据在长时间内的变化,可为决策提供参考。尽管基于transformer的模型在这个领域取得了进展,但它们通常没有充分利用多元时间序列的三个特征:全局信息、局部信息和变量相关性。为了有效地挖掘上述三个特征并建立高精度的预测模型,我们提出了一个双采样transformer(DSformer),它由双采样(DS)块和时间变量注意力(TVA)块组成。首先,DS块采用下采样和分段采样将原始序列转换为分别关注全局信息和局部信息的特征向量。然后,TVA块使用时间注意力和变量注意力从不同维度挖掘这些特征向量并提取关键信息。最后,基于并行结构,DSformer使用多个TVA块分别挖掘和集成从DS块获得的不同特征。集成的特征信息传递给基于多层感知机的生成解码器,实现多元时间序列的长期预测。
论文链接:http://arxiv.org/pdf/2307.14680v1.pdf
时间序列预测是许多科学和工程领域中重要的实际应用的核心。大量包含复杂模式和长期依赖关系的大型时间序列数据集的存在,导致了各种神经网络架构的发展。最近,基于图神经网络的方法在预测时联合学习基于多元时间序列原始值的相关性来学习图结构,取得了巨大的成功。然而,这些解决方案通常训练成本高昂且难以扩展。在本文中,我们提出了TimeGNN,一种学习动态时间图表示的方法,可以捕捉多个序列的相关性和交互模式的演变。TimeGNN实现了比其他最先进的基于图的方法快4到80倍的推理时间,并实现了可比较的预测性能。
论文链接:http://arxiv.org/pdf/2307.11494v1.pdf
扩散模型在各个领域的生成建模任务中已经取得了最先进的性能。以往的时间序列扩散模型主要集中在开发针对特定预测或填补任务的条件模型上。在本文中,我们探索了任务不可知的无条件扩散模型在几个时间序列应用中的潜力。我们提出了TSDiff,一种用于时间序列的无条件训练扩散模型。我们提出的自我引导机制使得在推理过程中可以将TSDiff用于下游任务的条件,而不需要辅助网络或改变训练过程。我们在三个不同的时间序列任务上展示了我们方法的有效性:预测、细化和合成数据生成。首先,我们展示了TSDiff与几种任务特定的条件预测方法具有竞争力。其次,我们利用TSDiff学习的隐式概率密度来迭代地改进基础预测器的预测,同时减少了反向扩散的计算开销。值得注意的是,模型的生成性能保持完好——使用TSDiff生成的合成样本训练的下游预测器优于使用其他最先进的生成时间序列模型的样本训练的预测器,有时甚至优于使用真实数据训练的模型。
论文链接:http://arxiv.org/pdf/2307.09916v3.pdf
深度学习(DL)方法越来越被用于时间序列预测,许多工作致力于设计复杂的DL模型。最近的研究表明,DL的成功往往归因于有效的数据表示,促进了特征工程和表示学习领域的发展。然而,自动化的特征学习方法通常在融合先前知识、识别变量间的交互作用以及选择评估指标以确保模型可靠性方面存在局限性。为了改善这些限制,本文提出了一种新颖的可视化分析框架,即TimeTuner,旨在帮助分析师了解模型行为与时间序列表示的局部相关性、平稳性和粒度之间的关联。该系统主要由以下两个阶段技术组成:首先,我们利用反事实解释来连接时间序列表示、多元特征和模型预测之间的关系。接下来,我们设计了多个协调视图,包括基于分区的相关矩阵和并置的双变量条纹,并提供了一组交互,允许用户进入转换选择过程,浏览特征空间,并推理模型性能。我们使用平滑和采样两种转换方法实例化TimeTuner,并展示了它在单变量太阳黑子和多变量空气污染物的实际时间序列预测中的适用性。领域专家的反馈表明,我们的系统可以帮助表征时间序列表示并指导特征工程过程。
论文链接:http://arxiv.org/pdf/2307.08302v1.pdf
本文表明,时间序列预测Transformer (TSFT)在处理非平稳时间序列时,由于未知解码器输入的不当初始化方法,存在严重的过拟合问题。基于此观察,我们提出了GBT,一种新颖的两阶段Transformer框架,具有良好的起点。它将TSFT的预测过程分解为两个阶段,包括自回归阶段和自回归阶段,以解决输入序列和预测序列之间的不同统计特性的问题。自回归阶段的预测结果作为“良好的起点”,即更好的初始化自回归阶段的输入。我们还提出了误差分数修改模块,进一步增强GBT中自回归阶段的预测能力。对七个基准数据集的广泛实验表明,GBT仅使用规范化的注意力和卷积,就能够胜过SOTA的TSFTs(如FEDformer、Pyraformer、ETSformer等)和许多其他预测模型(如SCINet、N-HiTS等),同时拥有更少的时间和空间复杂度。它也足够通用,可以与这些模型耦合以增强它们的预测能力。
论文链接:http://arxiv.org/pdf/2307.03595v1.pdf
编码器-解码器深度神经网络在多视角时间序列预测方面得到了越来越多的研究,特别是在实际应用中。然而,为了准确预测,这些复杂模型通常依赖于大量的时间序列示例和充分的历史数据。一个快速增长的研究领域是预测缺乏足够历史数据的时间序列,通常称为“冷启动”问题。在本文中,我们介绍了一种新颖而简单的方法,通过利用图神经网络(GNN)作为数据增强来增强这些预测器使用的编码器来解决这个问题。这些基于GNN的特征可以捕捉复杂的序列间关系,并且它们的生成过程可以与预测任务一起进行端到端优化。我们展示了我们的架构可以使用数据驱动或领域知识定义的图形,扩展以包含来自数百万节点的多个非常大的图形的信息。在我们针对大型电子商务零售商的需求预测目标应用中,我们展示了在100K个产品的小数据集和超过200万个产品的大数据集上,我们的方法提高了整体性能,超过了竞争基线模型。更重要的是,我们展示它为“冷启动”产品带来了更多的收益,如新推出的产品或最近缺货的产品。
论文链接:http://arxiv.org/pdf/2307.01616v2.pdf
在万物互联的蓬勃发展生态系统中,多元时间序列(MTS)数据已经无处不在,突显了时间序列预测在众多应用中的基本作用。长期MTS预测的关键挑战需要熟练掌握能够捕捉序列内部和序列间依赖关系的模型。近期深度学习的进展,特别是Transformer,已经显示出了希望。然而,许多现有方法要么边缘化序列间的依赖关系,要么完全忽略它们。为了弥合这一差距,本文介绍了一种新颖的序列感知框架,明确设计以强调这种依赖关系的重要性。在这个框架的核心是我们的特定实现:SageFormer。作为一种序列感知图增强Transformer模型,SageFormer能够熟练地识别和建模序列之间的复杂关系,使用图结构。除了捕捉不同的时间模式,它还减少了序列间的冗余信息。值得注意的是,序列感知框架与现有的基于Transformer的模型无缝集成,丰富了它们理解序列间关系的能力。对真实世界和合成数据集的广泛实验验证了SageFormer相对于当代最先进方法的卓越性能。
论文链接:http://arxiv.org/pdf/2306.10703v1.pdf
本文提出了FDNet:一种用于高效、稳健和实用的时间序列预测的焦点分解网络。我们摆脱了传统的深度时间序列预测公式,该公式从输入序列的通用特征映射中获得预测结果。相反,FDNet忽略了输入元素的通用相关性,仅从输入序列中提取细粒度的局部特征。我们表明:(1)仅使用输入序列的细粒度局部特征映射进行深度时间序列预测是可行的,具有理论基础。(2)通过放弃全局粗粒度特征映射,FDNet克服了时间序列动态变化引起的分布偏移问题,这在实际应用中很常见。(3)FDNet不依赖于时间序列的任何归纳偏差,除了基本的自回归,使其具有普适性和实用性。此外,我们提出了一种焦点输入序列分解方法,用于面对长序列时间序列输入(LSTI)问题的高效和稳健的预测。FDNet在六个实际基准测试中实现了竞争性的预测性能,并将预测MSE平均降低了38.4%,与其他13个SOTA基线相比。源代码可在https://github.com/OrigamiSL/FDNet上获得。
论文链接:http://arxiv.org/pdf/2306.10164v1.pdf
多元时间序列数据的分析具有挑战性,因为信号变化的频率在短期和长期内都可能不同。此外,标准的深度学习模型通常不适用于这种数据集,因为信号通常以不同的速率采样。为了解决这些问题,我们引入了MultiWave,这是一个新颖的框架,通过将在信号的固有频率上运行的组件纳入深度学习时间序列模型来增强其性能。MultiWave使用小波将每个信号分解为不同频率的子信号,并将它们分组成频带。我们的模型的每个频带由不同的组件处理。一个门控机制将组件的输出组合起来,产生只使用特定频率的特定信号的稀疏模型。我们的实验表明,MultiWave能够准确地识别信息频带,并提高各种深度学习模型的性能,包括LSTM、Transformer和基于CNN的模型,适用于广泛的应用。它在可穿戴设备的压力和情感检测方面达到了最佳性能。它还将最佳表现模型的AUC值提高了5%,用于从患者血样中预测住院COVID-19死亡率和从加速度计和陀螺仪数据中识别人类活动。我们展示了MultiWave始终能够识别关键特征及其频率组成部分,从而为所研究的应用提供有价值的见解。我们正在三个公开数据集上评估我们的模型,分别是可穿戴设备的压力和情感检测(WE-SAD)(Schmidt et al., 2018)和MHEALTH数据集(Banos et al., 2014, 2015),这两个数据集都可以从UCI机器学习库中下载,以及COVID-19数据集(Yan et al., 2020)。代码可在https://github.com/Information-Fusion-Lab-Umass/MultiWave中获得。
论文链接:http://arxiv.org/pdf/2306.09364v3.pdf
Transformer 模型因其能够捕捉长序列交互而在时间序列预测中受到欢迎。然而,尽管计算感知的自注意力模块有了许多进展,但它们的内存和计算密集型要求对长期预测构成了关键瓶颈。为了解决这个问题,我们提出了 TSMixer,这是一种轻量级的神经架构,专门由多层感知机 (MLP) 模块组成。TSMixer 设计用于多元预测和补丁时间序列的表示学习,为 Transformer 提供了一种高效的替代方案。我们的模型受到计算机视觉中 MLP-Mixer 模型的成功启发。我们展示了将 Vision MLP-Mixer 调整为时间序列的挑战,并引入了经过实验证实的组件来提高准确性。这包括一种新的设计范例,即将在线协调头附加到 MLP-Mixer 骨干上,以明确地建模时间序列的属性,如层次结构和通道相关性。我们还提出了一种混合通道建模方法,以有效处理嘈杂的通道交互和跨不同数据集的泛化,这是现有补丁通道混合方法中的常见挑战。此外,在骨干中引入了一个简单的门控注意机制,以优先处理重要特征。通过结合这些轻量级组件,我们显著增强了简单 MLP 结构的学习能力,以最小的计算使用量超越了复杂的 Transformer 模型。此外,TSMixer 的模块化设计使其与监督和掩码自监督学习方法兼容,使其成为时间序列基础模型的有前途的构建块。TSMixer 在预测方面的表现比最先进的 MLP 和 Transformer 模型提高了 8-60% 的显著优势。它还以显著降低内存和运行时间 (2-3 倍) 的方式优于最新的 Patch-Transformer 模型的强大基准 (1-2%)。
论文链接:http://arxiv.org/pdf/2306.08325v3.pdf
基于Transformer的模型已成为时间序列预测的有前途的工具。然而,这些模型无法准确预测长时间序列。一方面,它们未能捕捉时间序列数据中的长程依赖关系。另一方面,长输入序列通常导致模型大小和时间复杂度较大。为了解决这些限制,我们提出了GCformer,它将用于处理长输入序列的结构化全局卷积分支与用于捕捉短期近期信号的本地Transformer分支相结合。引入了一个全局卷积核的连贯框架,利用了三种不同的参数化方法。在全局分支中选择的结构化卷积核已经专门设计为亚线性复杂度,从而允许对长而嘈杂的输入信号进行高效和有效的处理。在六个基准数据集上的实证研究表明,GCformer优于现有技术方法,在多元时间序列基准测试中将MSE误差降低了4.38%,模型参数降低了61.92%。特别是,全局卷积分支可以作为插件块来增强其他模型的性能,平均提高31.93%,包括各种最近发布的基于Transformer的模型。我们的代码可在https://github.com/zyj-111/GCformer上公开获取。
论文链接:http://arxiv.org/pdf/2306.06895v1.pdf
长期时间序列预测在各种实际场景中发挥着重要作用。最近的深度学习方法通常采用基于分解或采样的方法来捕捉时间序列的复杂模式。然而,大多数提取的模式可能包含不可预测的噪声并且缺乏良好的可解释性。此外,多变量序列预测方法通常忽略了每个变量的个体特征,这可能影响预测准确性。为了捕捉时间序列的内在模式,我们提出了一种新的深度学习网络架构,称为多分辨率周期模式网络(MPPN),用于长期序列预测。我们首先构建上下文感知的时间序列多分辨率语义单元,并采用多周期模式挖掘来捕捉时间序列的关键模式。然后,我们提出了一个通道自适应模块来捕捉多变量对不同模式的感知。此外,我们提出了一种基于熵的方法来评估时间序列的可预测性,并在预测之前提供预测准确性的上限。我们在九个真实世界基准测试上的实验评估表明,MPPN在长期序列预测方面显著优于基于Transformer、分解和采样的现有方法。
论文链接:http://arxiv.org/pdf/2306.06252v1.pdf
我们引入了可编程特征工程的概念,提出了一个特征编程框架,为多元时间序列建模生成大量的预测特征,同时允许用户以最小的努力融入他们的归纳偏差。我们框架的关键动机是将任何多元时间序列视为细粒度轨迹增量的累积和,每个增量由一种新颖的自旋气体动力学伊辛模型控制。这种细粒度的视角促进了一组简洁的运算符的发展,以抽象的方式总结多元时间序列,为大规模自动特征工程奠定基础。
论文链接:http://arxiv.org/pdf/2306.06024v3.pdf
可解释的时间序列预测对于医疗保健和自动驾驶等安全关键领域至关重要。大多数现有方法侧重于通过为时间序列的片段分配重要分数来解释预测。在本文中,我们采取了一种不同且更具挑战性的方法,旨在开发一种自解释模型,称为反事实时间序列(CounTS),该模型生成时间序列预测的反事实和可操作解释。具体而言,我们形式化了时间序列反事实解释的问题,建立了相关的评估协议,并提出了一种变分贝叶斯深度学习模型,具备时间序列绑架、行动和预测的反事实推理能力。与最先进的基线相比,我们的自解释模型可以生成更好的反事实解释,同时保持可比的预测准确性。代码将在https://github.com/Wang-ML-Lab/self-interpretable-time-series上提供。
论文链接:http://arxiv.org/pdf/2305.18838v1.pdf
长期时间序列预测(LTSF)是现代社会的关键方面,对于促进长期规划和开发预警系统起着至关重要的作用。虽然最近引入了许多基于Transformer的模型用于LTSF,但是对于注意力模块在捕捉跨时间依赖方面的有效性提出了疑问。在本研究中,我们设计了一个掩码序列实验来验证这个假设,并随后提出了“用于多变量长期时间序列预测的交叉变量线性集成增强Transformer”(Client),这是一种先进的模型,优于传统的基于Transformer的模型和线性模型。Client采用线性模块来学习趋势信息,并使用注意力模块来捕捉跨变量依赖关系。同时,它简化了嵌入和位置编码层,并用投影层替换了解码器模块。实质上,Client结合了非线性和交叉变量依赖关系,使其区别于传统的线性模型和基于Transformer的模型。对于九个真实世界的数据集进行的大量实验已经证实了Client的SOTA性能,与以前的基于Transformer的模型相比,计算时间和内存消耗最少。我们的代码可在https://github.com/daxin007/Client上获得。
论文链接:http://arxiv.org/pdf/2305.15770v1.pdf
时间序列预测是各个领域中普遍存在的问题,例如气象学、交通监控、投资和能源生产和消费。许多统计和机器学习策略已经被开发出来来解决这个问题。然而,这些方法要么缺乏可解释性,要么在预测范围增加时表现不够令人满意。因此,我们提出了一种基于变换的网络架构设计的新方案,具有潜力在学习中实现增强的接受域,从而有利于融合不同尺度的特征。在这个背景下,我们引入了四种不同的变换机制作为构建学习模型的基础,包括傅里叶变换(FT)、奇异值分解(SVD)、矩阵乘法和Conv块。因此,我们基于上述构建块开发了四个学习模型,分别为FT-Matrix、FT-SVD、FT-Conv和Conv-SVD。需要注意的是,FT和SVD块能够学习全局信息,而Conv块专注于学习局部信息。矩阵块被稀疏地设计,同时学习全局和局部信息。上述变换学习网络(TLNets)已经在多个基于真实世界数据集的基线模型中进行了广泛测试和比较,并在长期时间序列预测方面显示出明显的潜力。
论文链接:http://arxiv.org/pdf/2305.12095v3.pdf
最近的研究表明,深度学习方法,尤其是Transformer和MLP,在时间序列预测方面具有巨大的优势。尽管Transformer在NLP和CV方面取得了成功,但许多研究发现,对于时间序列预测,Transformer的效果不如MLP。在本文中,我们设计了一种特殊的Transformer,即通道对齐的鲁棒双Transformer(简称CARD),以解决Transformer在时间序列预测中的关键缺点。首先,CARD引入了双Transformer结构,使其能够捕捉信号之间的时间相关性和多个变量随时间的动态依赖关系。其次,我们引入了一种鲁棒的时间序列预测损失函数,以减轻潜在的过度拟合问题。这个新的损失函数基于预测不确定性,对有限时间范围内的预测重要性进行加权。我们对多个长期和短期预测数据集的评估表明,CARD显著优于最先进的时间序列预测方法,包括基于Transformer和MLP的模型。
论文链接:http://arxiv.org/pdf/2305.06587v2.pdf
频谱-时间图神经网络是大多数基于图神经网络的时间序列预测模型的有前途的抽象。然而,我们需要更多了解这个方法分支的基础知识。在本文中,我们建立了一个理论框架,揭示了频谱-时间图神经网络的表达能力。我们的结果表明,线性频谱-时间图神经网络在温和的假设下是通用的,其表达能力受到我们在离散时间动态图上扩展的一阶Weisfeiler-Leman算法的限制。为了使我们的发现在实践中有用,我们详细讨论了相关的约束条件,并概述了在频谱域设计空间和时间模块的理论蓝图。基于这些见解,并为了展示基于我们框架的频谱-时间图神经网络的强大能力,我们提出了一个简单的实例,名为Temporal Graph GegenConv(TGC),它仅使用线性组件就显著优于大多数现有模型,并显示出更好的模型效率。
论文链接:http://arxiv.org/pdf/2305.04800v2.pdf
最近,时间序列预测研究取得了显著进展,越来越多地关注分析时间序列数据的性质,例如通道独立性(CI)和通道依赖性(CD),而不仅仅是专注于设计复杂的预测模型。然而,当前的研究主要集中在单独的CI或CD上,如何有效地将这两个相反的属性结合起来以实现协同效应的挑战仍然是一个未解决的问题。在本文中,我们仔细研究了CI和CD的相反属性,并提出了一个实际问题,即“如何有效地混合时间序列的CI和CD属性以实现更好的预测性能?”为了回答这个问题,我们提出了Mlinear(MIX-Linear),这是一种基于线性层的简单而有效的方法。Mlinear的设计哲学主要包括两个方面:(1)根据不同输入时间序列的时间语义动态调整CI和CD属性,(2)提供深度监督来调整“CI预测器”和“CD预测器”的单独性能。此外,我们在经验上引入了一种新的损失函数,它在多个数据集上显著优于广泛使用的均方误差(MSE)。在涵盖多个领域和广泛使用的时间序列数据集上的实验已经证明了我们的方法在MSE和MAE指标上优于PatchTST,后者是最新的基于Transformer的方法,在具有相同序列输入(336或512)的7个数据集上。具体而言,我们的方法在336序列长度输入时比PatchTST高出21:3,在512序列长度输入时比PatchTST高出29:10。此外,我们的方法在单位级别上具有10倍的效率优势,同时考虑了训练和推理时间。
论文链接:http://arxiv.org/pdf/2303.18205v1.pdf
对比学习方法已经展示出了学习图像或时间序列分类的有意义表示的卓越能力。然而,这些方法对于时间序列预测的效果较差,因为实例区分的优化不直接适用于从历史上下文中预测未来状态。此外,当前技术中正负对的构建强烈依赖于特定的时间序列特征,限制了它们在不同类型的时间序列数据中的泛化能力。为了解决这些限制,我们提出了SimTS,一种简单的表示学习方法,通过在潜在空间中学习从过去预测未来来改善时间序列预测。SimTS不依赖于负对或特定时间序列特征的假设。我们在几个基准时间序列预测数据集上进行了广泛的实验,结果显示SimTS与现有对比学习方法相比具有竞争性的性能。此外,我们通过详细的消融研究展示了当前用于时间序列预测的对比学习框架的缺点。总的来说,我们的工作表明,SimTS是时间序列预测中其他对比学习方法的有希望的替代方案。
论文链接:http://arxiv.org/pdf/2303.14254v1.pdf
时间序列数据增强可以缓解深度学习模型训练数据不足的问题。然而,现有的增强方法主要是为分类而设计的,即使增强改变了时间动态,类别标签也可以保留。我们注意到,为预测设计的增强需要多样性以及与原始时间动态的连贯性。由于真实物理过程生成的时间序列数据在时间和频率域中都具有特征,因此我们建议将频谱和时间增强(STAug)结合起来生成更多样化和连贯的样本。具体而言,在频域中,我们使用经验模态分解将时间序列分解并使用随机权重重新组合子分量。这样,我们既生成了多样化的样本,又保持了与原始时间关系的连贯性,因为它们包含相同的基本组件集。在时间域中,我们采用混合策略,生成多样化和线性连贯的样本。在五个真实世界的时间序列数据集上的实验表明,STAug优于没有数据增强的基本模型以及最先进的增强方法。
论文链接:http://arxiv.org/pdf/2303.10426v1.pdf
现代时间序列预测方法,如Transformer及其变种,已经展现出在序列数据建模方面的强大能力。为了实现高性能,它们通常依赖于冗余或不可解释的结构来建模变量之间的复杂关系,并使用大规模数据来调整参数。然而,许多实际数据挖掘任务缺乏足够的变量进行关系推理,因此这些方法可能无法正确处理这种预测问题。在数据不足的情况下,时间序列似乎受到许多外生变量的影响,因此建模变得不稳定和不可预测。为了解决这个关键问题,在本文中,我们开发了一种新的算法框架,用于推断可观察时间序列所暗示的内在潜在因素。推断出的因素用于形成多个独立且可预测的信号组件,不仅可以实现长期效率的稀疏关系推理,还可以重构未来的时间数据以进行准确的预测。为了实现这一目标,我们引入了三个特征,即可预测性、充分性和可识别性,并通过强大的深度潜在动力学模型来建模这些特征以推断可预测的信号组件。在多个实际数据集上的实证结果显示了我们的方法在不同类型的时间序列预测中的效率。统计分析验证了所学习的潜在因素的可预测性。
论文链接:http://arxiv.org/pdf/2303.06053v5.pdf
现实世界中的时间序列数据集通常是多变量的,具有复杂的动态特性。为了捕捉这种复杂性,像循环或基于注意力的顺序深度学习模型这样的高容量架构已经变得流行起来。然而,最近的研究表明,在几个常用的学术基准测试中,简单的单变量线性模型可以胜过这样的深度学习模型。在本文中,我们扩展了这些模型,研究了线性模型在时间序列预测中的能力,并提出了时间序列混合器(TSMixer),这是一种通过堆叠多层感知器(MLP)设计的新型架构。TSMixer基于在时间和特征维度上进行混合操作,以有效地提取信息。在流行的学术基准测试中,易于实现的TSMixer与利用特定基准的归纳偏差的专业最先进模型相当。在具有挑战性和大规模的M5基准测试中,即一个真实的零售数据集,TSMixer表现出优越的性能,比最先进的替代方案更好。我们的结果强调了有效利用跨变量和辅助信息以提高时间序列预测性能的重要性。我们提供了各种分析来阐明TSMixer的能力。TSMixer所采用的设计范例预计将为基于深度学习的时间序列预测开辟新的视野。
论文链接:http://arxiv.org/pdf/2302.14390v1.pdf
时间序列预测(TSF)一直是一个具有挑战性的研究领域,各种模型已经被开发出来来解决这个任务。然而,几乎所有这些模型都是使用数字时间序列数据进行训练的,这种数据不如视觉信息被神经系统有效地处理。为了解决这个挑战,本文提出了一种新的机器视觉辅助深度时间序列分析(MV-DTSA)框架。MV-DTSA框架通过在一种新的二进制机器视觉时间序列度量空间中分析时间序列数据来运作,该空间包括从数字时间序列空间到二进制机器视觉空间的映射和逆映射函数,以及一个专门设计用于在二进制空间中解决TSF任务的深度机器视觉模型。全面的计算分析表明,所提出的MV-DTSA框架优于最先进的深度TSF模型,而不需要复杂的数据分解或模型定制。我们的框架代码可在https://github.com/IkeYang/machine-vision-assisted-deep-time-series-analysis-MV-DTSA-上访问。
论文链接:http://arxiv.org/pdf/2302.11974v2.pdf
相关时间序列(CTS)预测在许多实际应用中起着重要作用,例如交通管理和服务器负载控制。许多深度学习模型已被提出来提高CTS预测的准确性。然而,尽管模型变得越来越复杂和计算密集,它们仍然难以提高准确性。为了追求不同的方向,本研究旨在实现更高效、轻量级的模型,既能保持准确性,又能在资源受限的设备上部署。为了实现这个目标,我们对流行的CTS预测模型进行了表征,并得出了两个观察结果,指出了轻量级CTS预测的方向。在此基础上,我们提出了LightCTS框架,该框架采用纯堆叠时间和空间算子,而不是更加计算密集的交替堆叠。此外,LightCTS还具有轻量级的时间和空间算子模块,称为L-TCN和GL-Former,它们提供了改进的计算效率,而不会影响它们的特征提取能力。LightCTS还包括一个最后一次压缩方案,以减少冗余的时间特征并加速后续计算。单步和多步预测基准数据集的实验表明,LightCTS能够以大大降低的计算和存储开销实现接近最先进的准确性。
论文链接:http://arxiv.org/pdf/2302.09292v1.pdf
数据增强(DA)已成为深度学习中扩展训练数据大小的事实标准解决方案。随着深度模型在时间序列分析中的普及,文献中提出了各种时间序列DA技术,例如基于裁剪、扭曲、翻转和混合的方法。然而,这些增强方法主要适用于时间序列分类和异常检测任务。在时间序列预测(TSF)中,我们需要对时间序列段内的细粒度时间关系进行建模,以便在给定回顾窗口中的数据时生成准确的预测结果。时间域中现有的DA解决方案会破坏这种关系,导致预测精度较差。为了解决这个问题,本文提出了一种简单而有效的频域增强技术,名为FrAug,以确保预测中增强数据标签对的语义一致性。我们在八个广泛使用的基准测试中进行了大量实验,使用了几种最先进的TSF深度模型。我们的结果表明,在大多数情况下,FrAug可以提高TSF模型的预测精度。此外,我们还表明,FrAug使得用原始训练数据的1%训练的模型可以实现与使用全部训练数据训练的模型相似的性能,这对于冷启动预测特别有吸引力。最后,我们还表明,使用FrAug进行测试时间训练可以极大地提高具有显著分布转移的时间序列的预测精度,这在实际的TSF应用中经常发生。我们的代码可在https://anonymous.4open.science/r/Fraug-more-results-1785获得。
论文链接:http://arxiv.org/pdf/2302.04501v1.pdf
多元时间序列预测已经被广泛应用于各种实际场景中。最近,基于Transformer的模型由于能够捕捉长程依赖性,在预测任务中显示出了显著的潜力。然而,视觉和自然语言处理领域的最新研究表明,注意力模块的作用并不清楚,可以被其他令牌聚合操作替代。本文研究了注意机制对时间序列预测性能的贡献和不足之处。具体而言,我们发现:(1)注意力对于捕捉时间依赖性并不是必要的,(2)在捕捉时间和通道交互方面的纠缠和冗余影响了预测性能,(3)对于输入和预测序列之间的映射进行建模非常重要。为此,我们提出了MTS-Mixers,它使用两个分解模块来捕捉时间和通道依赖性。在几个真实世界数据集上的实验结果表明,MTS-Mixers比现有的基于Transformer的模型具有更高的效率和更好的性能。
论文链接:http://arxiv.org/pdf/2301.10887v1.pdf
基于文本的时间序列建模以预测未来事件或结果是一项具有广泛应用的重要任务。标准方法是使用相同的输入窗口训练和测试模型,但这种方法忽略了在预测时间和最终结果之间收集的更长的输入窗口中的数据,这些数据通常在训练期间可用。在本研究中,我们提出将这些被忽略的文本视为训练期间可用的特权信息,通过知识蒸馏来增强早期预测建模,称为使用特权时间序列文本(LuPIET)。我们在临床和社交媒体文本上评估了该方法,其中四个临床预测任务基于临床笔记,两个心理健康预测任务基于社交媒体帖子。我们的结果显示,LuPIET在增强基于文本的早期预测方面是有效的,尽管可能需要考虑选择适当的文本表示和特权文本窗口以实现最佳性能。与使用迁移学习和混合训练的另外两种方法相比,LuPIET在基线标准训练上提供了更稳定的改进。据我们所知,这是第一项在NLP上研究使用特权信息进行时间序列学习的研究。
论文链接:http://arxiv.org/pdf/2301.09811v1.pdf
本文提出了一种基于核主成分分析的多元时间序列预测模型,其中训练和预测方案源于受限核机器的多视图公式。训练问题仅是输入和输出数据视图对应的两个核矩阵之和的特征值分解。当输出视图使用线性核时,预测方程的形式为核岭回归。当该核为非线性时,必须解决预测输入空间中的点的预像问题。我们在几个标准时间序列数据集上评估该模型,进行消融研究,与密切相关的模型进行基准测试,并讨论其结果。
论文链接:http://arxiv.org/pdf/2301.06625v3.pdf
背景与目的:在重症监护室(ICU)中,生命体征监测至关重要,需要一个准确的预测系统。本研究将创建一个新型模型,用于预测ICU中的心率(HR)、收缩压(SBP)和舒张压(DBP)。这些生命体征对于对患者进行及时干预至关重要。
方法:我们从MIMIC-III数据库中提取了24,886个ICU住院记录,该数据库包含来自超过46,000名患者的数据,以训练和测试模型。本研究提出的Transformer-based Diffusion Probabilistic Model for Sparse Time Series Forecasting(TDSTF)模型将Transformer和扩散模型合并,用于预测生命体征。TDSTF模型在预测ICU中的生命体征方面表现出最先进的性能,优于其他模型预测生命体征分布的能力,并且更具计算效率。代码可在https://github.com/PingChang818/TDSTF上获得。
结果:研究结果表明,TDSTF的标准化平均连续排名概率得分(NACRPS)为0.4438,均方误差(MSE)为0.4168,分别比最佳基线模型提高了18.9%和34.3%。TDSTF的推理速度比最佳基线模型快17倍以上。
结论:TDSTF是预测ICU中生命体征的有效和高效解决方案,并且与该领域的其他模型相比显示出显着的改进。
论文链接:http://arxiv.org/pdf/2301.01772v1.pdf
Transformer架构在许多任务中,如自然语言处理(NLP)和计算机视觉(CV)中取得了最先进的结果,因为它能够有效地捕捉输入序列之间的精确长程依赖关系。然而,由于这种先进能力,二次时间复杂度和高内存使用率使得Transformer无法处理长时间序列预测问题(LTFP)。为了解决这些困难:(i)我们重新审视了香草自我关注的学习注意模式,重新设计了基于最大熵原理的自我关注计算方法。(ii)我们提出了一种新的方法来稀疏自我关注,可以防止由于随机抽样而丢失更重要的自我关注分数。(iii)我们提出了Keys / Values Distilling方法,认为原始自我关注图中的大量特征是冗余的,这可以进一步减少时间和空间复杂度,并使其能够输入更长的时间序列。最后,我们提出了一种将编码器-解码器架构与季节趋势分解相结合的方法,即使用编码器-解码器架构来捕捉更具体的季节部分。在几个大型数据集上进行的大量实验表明,我们的Infomaxformer明显优于现有方法。我们期望这将为Transformer解决LTFP问题开辟一种新的解决方案,并探索Transformer架构捕捉更长时间依赖性的能力。
论文链接:http://arxiv.org/pdf/2211.16653v2.pdf
时间序列预测(TSF)问题是人工智能领域的传统问题。诸如递归神经网络(RNN)、长短期记忆(LSTM)和门控循环单元(GRU)等模型已经为TSF的预测准确性做出了贡献。此外,已经提出了模型结构来结合时间序列分解方法,例如使用Loess进行季节趋势分解(STL),以确保提高预测准确性。然而,由于这种方法是在每个组件的独立模型中学习的,因此它无法学习时间序列组件之间的关系。在本研究中,我们提出了一种新的神经架构,称为相关循环单元(CRU),可以在神经细胞内执行时间序列分解并学习每个分解组件之间的相关性(自相关和相关性)。通过使用五个单变量时间序列数据集和四个多变量时间序列数据进行比较实验,评估了所提出的神经架构。结果表明,长期和短期的预测性能提高了10%以上。实验结果表明,与其他神经架构相比,所提出的CRU是TSF问题的一个优秀方法。
论文链接:http://arxiv.org/pdf/2207.07827v3.pdf
多元长序列时间序列预测(M-LSTF)是一个实际但具有挑战性的问题。与传统的时间序列预测任务不同,M-LSTF任务从两个方面更具挑战性:1) M-LSTF模型需要学习多个时间特征内部和之间的时间序列模式;2) 在滚动预测设置下,两个连续的训练样本之间的相似性随着预测长度的增加而增加,这使得模型更容易过拟合。在本文中,我们提出了一个通用的记忆驱动Transformer来解决M-LSTF问题。具体来说,我们首先提出了一个任务级记忆组件来通过整合多个时间序列特征来驱动预测过程。此外,我们的模型采用渐进式训练方法来增加其泛化能力,逐步向训练样本引入伯努利噪声。我们在多个领域的五个不同数据集上进行了大量实验。实验结果表明,我们的方法可以无缝地插入到不同的基于Transformer的模型中,将它们的性能提高约30%。特别地,据我们所知,这是第一个专门针对M-LSTF任务的工作。
论文链接:http://arxiv.org/pdf/2207.06046v4.pdf
深度学习已经广泛应用于时间序列预测,导致了大量新方法的涌现,属于历史价值模型类别。然而,尽管时间索引模型具有吸引人的特性,例如能够建模底层时间序列动态的连续性,但它们却受到了很少的关注。事实上,虽然朴素的深度时间索引模型比经典时间索引模型的手动预定义函数表示更具表现力,但它们对于预测来说是不足够的,由于缺乏归纳偏置而无法推广到未见过的时间步骤。在本文中,我们提出了DeepTime,一个元优化框架,用于学习深度时间索引模型,克服这些限制,产生高效准确的预测模型。在长序列时间序列预测设置下的真实世界数据集上进行的广泛实验表明,我们的方法取得了与最先进方法相当的竞争结果,并且非常高效。代码可在https://github.com/salesforce/DeepTime获得。
论文链接:http://arxiv.org/pdf/2206.04038v4.pdf
最近,引入transformer技术极大地提高了时间序列预测的性能。本文提出了一个通用的多尺度框架,可应用于最先进的基于transformer的时间序列预测模型(FEDformer,Autoformer等)。通过在多个尺度上迭代地使用共享权重来细化预测的时间序列,引入架构适应性和特别设计的归一化方案,我们能够在最小的额外计算开销下实现显著的性能提升,跨数据集和transformer架构从5.5%到38.5%。通过详细的消融研究,我们证明了我们的每个贡献在架构和方法论上的有效性。此外,我们在各种公共数据集上的实验表明,所提出的改进优于其相应的基线对照。我们的代码可在https://github.com/BorealisAI/scaleformer公开获取。
论文链接:http://arxiv.org/pdf/2201.04828v2.pdf
多元时间序列(MTS)预测在智能应用的自动化和优化中扮演着重要角色。这是一项具有挑战性的任务,因为我们需要考虑复杂的内部变量依赖关系和变量间依赖关系。现有的工作只能在单个变量依赖关系的帮助下学习时间模式。然而,在许多实际的MTS中存在多尺度时间模式。单个变量依赖关系使模型更倾向于学习一种突出和共享的时间模式。在本文中,我们提出了一种多尺度自适应图神经网络(MAGNN)来解决上述问题。MAGNN利用多尺度金字塔网络来保留不同时间尺度下的基本时间依赖关系。由于不同时间尺度下的变量间依赖关系可能不同,因此设计了自适应图学习模块来推断尺度特定的变量间依赖关系,而无需预定义的先验知识。给定多尺度特征表示和尺度特定的变量间依赖关系,引入了多尺度时间图神经网络来共同建模内部变量依赖关系和变量间依赖关系。之后,我们开发了一个尺度逐层融合模块,以有效促进不同时间尺度之间的协作,并自动捕捉贡献时间模式的重要性。在六个真实数据集上的实验表明,MAGNN在各种设置下均优于现有最先进方法。
论文链接:http://arxiv.org/pdf/2111.03422v3.pdf
本文关注半监督领域适应时间序列预测问题,尽管在实践中经常遇到,但在文献中尚未得到充分探讨。现有的时间序列领域适应方法主要遵循为静态数据设计的范例,无法处理由数据偏移、时间滞后和不同数据分布引起的领域特定的复杂条件依赖关系。为了解决这些挑战,我们分析了时间序列数据中的变分条件依赖关系,并发现因果结构通常在领域之间稳定,并进一步提出了因果条件偏移假设。在这一假设的启发下,我们考虑时间序列数据的因果生成过程,并提出了一个端到端模型,用于解决半监督领域适应时间序列预测问题。我们的方法不仅可以发现跨领域数据之间的Granger-因果结构,还可以通过准确且可解释的预测结果解决跨领域时间序列预测问题。我们进一步从理论上分析了所提出方法的优越性,其中目标领域的泛化误差受到经验风险和不同领域之间因果结构差异的限制。在合成数据和真实数据上的实验结果表明,我们的方法对于半监督领域适应时间序列预测方法具有有效性。
论文链接:http://arxiv.org/pdf/2107.01353v2.pdf
在非线性系统中,仅基于观测数据进行鲁棒预测是一项困难的任务。本文提出了一种神经网络计算框架,即时空信息转换机(STICM),通过采用空间-时间信息(STI)转换,能够高效准确地进行多步预测。STICM结合了STI方程和时间卷积网络的优点,将高维/空间数据映射到目标变量未来的时间值,从而自然地提供目标变量的预测。从观测变量中,STICM还推断出目标变量的因果因素,以格兰杰因果性的意义选择有效的空间信息,以提高时间序列预测的鲁棒性。STICM已成功应用于基准系统和实际数据集,所有结果均表现出卓越的鲁棒性和多步预测性能,即使数据受到噪声的干扰。从理论和计算的角度来看,STICM在人工智能(AI)的实际应用或仅基于观测数据的无模型方法中具有巨大的潜力,也为机器学习以动态方式探索观测到的高维数据开辟了新的道路。
推荐阅读:
公众号:AI蜗牛车
保持谦逊、保持自律、保持进步
发送【蜗牛】获取一份《手把手AI项目》(AI蜗牛车著)
发送【1222】获取一份不错的leetcode刷题笔记
发送【AI四大名著】获取四本经典AI电子书
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。