赞
踩
背景:开发新的时间序列异常检测方法是非常重要的,但是新方法的效益难以评估,原因:
工作:
许多AD的评估是不可靠的
时间序列数据包含强烈的时间依赖性,类似于图像中的空间依赖性。
一个好的基准数据集:包含相似数量的样本,以方便深度模型的训练。应该包含足够的特征,以允许复杂的特征间依赖关系
问题
除了wadi之外,所有考虑的数据集都包含超过10%的异常,这可能已经太高,不能被认为是罕见的偏离标准
存在疑问?就是这种数据集为什么不行,认为挺接近现实的呀
Long anomalies长异常会在评估中引入问题(有些方法根据窗口中的正常上下文来预测随后的异常),与适应的求值协议相互作用。
Constant features恒定特征出现在所有考虑的数据集中(一些数据集包含的特征在训练集和测试集之间保持不变)
Distributional shift分布转移:当生成正常训练和测试数据的底层过程不相同时,就会发生分布转移
(和师兄讨论:(A)这个图你一眼看到就感觉莫名其妙,他标签不标在出现下降的地方,标在一个水平线上换成谁来也看不出这里为啥是异常)
exist question :仅在标记异常之后才在传感器中显示的效果(例如,参见图2a)对于任何异常检测器来说都是不可能的问题。
针对于数据集的分析:
异常检测器对时间序列中的每个时间步产生一个异常分数。在时刻t的分数越高,探测器就越有信心认为此时的点是异常点。然后通过这些分数的阈值来预测异常。给定预测和标签,评估度量根据它们的一致性产生一个分数。然后,不同的算法可以根据其预测产生的分数进行比较。
逐点度量的缺点,以及在评估度量中明确包含时间依赖性的现有尝试:
逐点度量的缺陷:很多度量忽略了predictive patterns的重要。只是用F1和recall作为度量
机器学习 召回率:true recognition / all true example
目前存在的评价指标的问题:
evaluation protocol :包括如何进行实验的规范,包括数据集的预处理、特征消除和参数选择启发式。(结合之前的讨论,感觉师兄的paper将这部分做了一个规范,形成了一个范式)
3. 在TPrec中使用代替相等的权值|P|-1
原因:可以通过消除对总精度的全局影响来惩罚碎片化的预测
例如,LSTM-P产生的分数在异常窗口内波动,并在异常窗口的末尾甚至外部出现尖峰,可能导致碎片化的预测,而TCN-AE产生的分数在异常窗口的持续时间内平稳地增加和减少,导致连续的预测,并在终端故障时出现尖峰
使用新的加权,而不是等权值
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。