当前位置:   article > 正文

如何给大模型喂时序数据?基于LLMs的时间序列预测5大方法汇总_如何统一时序大模型的数据输入格式

如何统一时序大模型的数据输入格式

大模型可以从时间序列数据中提取关键特征,整合来自不同数据源的信息,包括文本和图像,从而提供更全面、更准确的时间序列预测。

这其中,由于LLMs原始文本数据与时间序列数据存在数值特性之间的差距,如何将时间序列数据输入大模型就成为了实现LLMs在时间序列预测领域应用的关键性问题。

为提供解决思路,本文介绍5种大模型应用于时间序列领域的方法,包括直接提示LLMs、时间序列量化、对齐技术、利用视觉模态作为桥梁机制,以及将LLMs与工具结合使用。每种方法的代表性论文(57篇)以及相应代码都整理了,方便各位作参考。

论文和代码需要的同学看文末

1.基于Prompt的方法

这种方法直接将时间序列数据作为文本输入到模型中,以引导模型输出针对这些数据的预测结果。在这个过程中,时间序列中的数字被当作文本内容处理,这就涉及到如何对这些数字进行标记化(tokenize)的问题。为了在标记化过程中更清晰地区分数字,一些研究工作在数字之间添加了空格,以确保数字可以被准确地识别和处理,避免了传统词典在数字区分上的不足。

代表性论文:

PromptCast: A New Prompt-based Learning Paradigm for Time Series Forecasting

方法:本文提出了一种新的时间序列预测方法,即基于提示的时间序列预测(PromptCast)。传统的时间序列预测方法通常将数值序列作为输入,并生成数值作为输出。本文的方法则将输入和输出转化为提示,并以句子对句子的方式进行预测,从而可以直接应用语言模型进行预测。为了支持这一任务的研究,本文还构建了一个大规模的数据集(PISA),包含三个真实的预测场景。

创新点:

  • 提出了PromptCast的新预测范式,将时间序列预测问题转化为自然语言生成的方式,这是首次从自然语言生成的角度解决了时间序列预测问题。

  • 构建了大规模的PISA数据集,包括三个真实的时间序列预测场景:天气温度预测、能源消耗预测和客流量预测。这个数据集的发布不仅支持了PromptCast任务的研究,还有潜力刺激时间序列分析领域的相关研究。

2.离散化

这类技术通过对时间序列数据进行离散化处理,将连续的数值数据转换为离散的标识符(ids),以便适应自然语言处理(NLP)大型模型的输入需求。

代表性论文:

AudioLM: a Language Modeling Approach to Audio Generation

方法:论文介绍了一种名为AudioLM的框架,该框架通过将语义和声学标记以层次化的方式结合起来,实现了具有长期连贯结构的高质量音频生成。具体而言,该框架使用自我监督的掩码语言建模目标预训练模型,从原始音频波形构建粗粒度的语义标记,然后使用SoundStream神经编解码器生成细粒度的声学标记。通过训练语言模型生成语义和声学标记,实现了高质量的音频合成和长期一致性。

创新点:

  • 提出了一种混合分词方案,结合了语义标记和声学标记,以解决音频生成中的表示和建模挑战。

  • 通过实验证明,从预训练的w2v-BERT中提取的语义标记和从SoundStream中提取的声学标记在语音数据集上相互补充,具有良好的语音辨别性和重构质量。

  • 提出了一种分阶段的Transformer语言模型,通过在粗声学标记的条件下建模语义标记,实现高质量的音频合成。

3.时间序列-文本对齐

这种方法利用了多模态学习中的对齐技术,目的是将时间序列的特征表示映射到文本空间,以便能够将时间序列数据直接输入到自然语言处理(NLP)的大型模型中。在这些方法中,一方面会应用到多种多模态对齐技术,另一方面会在时间序列数据上进行微调(finetune),使用NLP大型模型作为基础架构,并在此基础上增加额外的网络层以适应时间序列数据。

代表性论文:

Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot Sentiment Classification

方法:本文提出了两个具有挑战性的任务,即开放词汇的EEG-文本序列到序列解码和基于EEG的句子情感分类。提出了利用预训练语言模型的新框架,展现出很强的可扩展性和零样本能力。

创新点:

  • 引入了两个新任务:开放词汇表的脑电图到文本解码和基于脑电图的句子情感分类。

  • 在零样本情感发现方面的工作通过仅使用脑电图特征作为输入,并且不需要任何脑电图-情感标记对,扩展了先前的工作。

  • 在EEG到文本解码评估中训练了EEG到文本模型。类似于典型的自然语言处理微调任务,作者假设模型应该能够从训练语料库的扩展中受益。因此,作者逐渐增加训练数据集的大小,通过添加来自各种阅读任务的数据。

  • 提出了两个具有挑战性的任务,即开放式词汇表的EEG到文本序列解码和基于EEG的句子情感分类。

  • 将问题从封闭词汇表扩展到开放词汇表的脑电图到文本序列解码,以及自然阅读任务上的零样本情感分类。作者将词汇量从几百个扩大到50,265个。利用了由非侵入性设备记录的来自各种受试者和来源的数据。

4.引入视觉信息

将时间序列和视觉信息建立联系,再将利用图像和文本已经经过比较深入研究的多模态能力引入进来,为下游任务提取有效的特征。

代表性论文:

Generating Virtual On-body Accelerometer Data from Virtual Textual Descriptions for Human Activity Recognition

方法:引入了一种方法,利用ChatGPT生成虚拟文本描述,然后生成3D人体动作序列,再将其转换为虚拟IMU数据流。

创新点:

  • 使用ChatGPT的自然语言生成能力自动生成活动的文本描述,并结合运动合成和信号处理技术生成虚拟IMU数据流。

  • 使用领域自适应方法来解决虚拟IMU数据和真实IMU数据之间的领域差异问题。通过使用少量的真实IMU数据,可以对虚拟IMU数据进行校准,从而使其更符合真实环境中的数据。

5.大模型工具

这类方法没有对NLP的大型模型本身进行结构上的优化,也没有改变时间序列数据的形式以适应模型的需求,而是直接将NLP大型模型作为一种工具来处理时间序列问题。

代表性论文:

Unleashing the Power of Shared Label Structures for Human Activity Recognition

方法:研究提出了一种新的人体活动识别(HAR)方法,名为SHARE。该方法通过将标签名称结构编码为预测标签序列,以更好地捕捉共享的语义结构。

研究还设计了三种不同级别的数据增强方法,以更好地捕捉共享结构。与现有的HAR模型不同,SHARE输出标签名称序列,从而保留了各种活动之间的结构,并提供了全局活动关系的视图。

创新点:

  • 标记级别的数据增强:通过在不同级别上进行数据增强,可以更好地捕捉共享的语义结构。

  • 序列级别的数据增强:通过编码时间序列特征并解码标签序列作为预测,可以更好地捕捉共享的语义结构。

  • 标签语义建模:通过对标签名称的语义进行建模,可以提高分类任务的性能。与现有方法相比,SHARE能够保留标签结构并通过解码标签名称进行知识共享,从而更好地捕捉共享的语义结构。

关注下方《学姐带你玩AI》

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/468763
推荐阅读