当前位置:   article > 正文

时间序列相似性搜索总结_时间序列相似搜索

时间序列相似搜索

前言

前段时间一直在看时间序列相似性搜索(Time Series Similarity Search)的相关论文,现在终于放暑假了,开心度假中,也正好对那段时间读的论文做些总结。

首先来说明一下什么是时间序列(Time Series,以下简称时序),时序就是按相等的时间采样的数据点构成的序列,数据点是几维的就叫几维时序。实际中一般以一维和二维时序居多。与时序类似的关键词还有轨迹(trajectory),按我的理解他们的区别就是轨迹不一定是等时间间隔采样的,而时序一般是指按等时间间隔采样的序列。

其实时序数据挖掘是一个比较热门的研究领域,因为现实生活中很多东西都能看做时序,比如股票的波动数据,病人的心电图数据等,或者更复杂的采样时间间隔不等的轨迹,也能通过等间隔插值的方法近似成时序然后进行处理。 因此时序能描述的东西是很多的,对它的研究也进行了很长时间了,现在依然非常热门。

回到主题,那么时序搜索有什么用呢?如果能在历史的数据中找到与现在相似的时序,这可能能帮助我们预测时序未来的走势。此外,时序相似性搜索也是很多其他时序数据挖掘的基础,比如时序数据的分类和聚类等。

正文

下面开始说明怎样进行时序相似性搜索,我们的目的是给定一个时序查询Q,然后从一个时序数据库中返回与Q最相似的时序。

数据预处理

首先,由于时序是典型的高维数据,数据点可能相当多(你想啊,心电图可能几毫秒就采样一个点,这存下来几年的数据得有多少,当然,一条时序具体有多少个点还得看你怎么分割这些数据),我们需要预处理,需要将原始数据以一种合适的方式来呈现,以方便后期的处理,这种技术叫做时序呈现(time series representation),其实也就是维度缩减技术,目的是压缩数据但是保留主要信息。这类技术包括离散傅里叶变换(DFT),离散小波变换(DWT),主成分分析(PCA),奇异值分解(SVD),PAA,SAX等,这些东西可以在一些综述中找到,如09年的一篇综述“高效时序相似搜索技术“。

另外,为了减少平移和缩放对相似性的影响,我们需要对原始数据进行标准化,常用的方法是z标准化(Z-score),就是每个数据点减去平均值,再除以偏标准差。公式为

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/在线问答5/article/detail/966671
推荐阅读
相关标签
  

闽ICP备14008679号