当前位置:   article > 正文

注意力机制与时空联合模型的交通流速度预测

时空注意力机制

 1.文章信息

《Attention Mechanism With Spatial-Temporal Joint Model for Traffic Flow Speed Prediction》是2022年9月发表在期刊IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTA TION SYSTEMS上的一篇文章。

 2.摘要

智能交通系统(ITS)在解决当今交通问题中发挥着重要作用,短期交通流预测是其核心。深度学习可以提取和捕获抽象的高阶特征,引入注意机制来提高深度学习算法的性能已经在许多领域得到了验证。由于交通流的复杂性和随机性,准确的交通流预测并不是一项简单的任务。合理利用深度学习对交通流进行预测,对整个交通系统具有重要意义。文章阐述了选择循环神经网络(RNN)作为交通流预测的基础网络的原因。针对实际应用中的梯度消失问题,引入长短期记忆网络(long - short - term memory network, LSTM)对模型进行改进,并详细描述了模型框架、算法和训练过程。在LSTM-RNN中引入注意机制,建立短期交通流预测模型。将该模型应用于实际观测的交通流数据,发现该模型具有较高的预测精度和模型效率。

 3.介绍

文章的主要贡献如下:1)在深度学习模型中引入时空注意机制,构建并改进深度学习模型,实现对交通流速度的准确、高效预测;2)提出了一种利用注意力更好地利用数据并提取更深层次信息的模型;3)与其他基线方法相比,可以提供更高的交通流预测精度和性能。

文章的组织结构如下:第一部分介绍了智能交通系统的背景和意义、交通流预测和带有注意机制的深度学习模型。第二部分介绍了相关工作,具体介绍了深度学习在交通流速度预测方面的现状,注意力机制,以及在深度学习中引入注意力的作用。第三部分介绍了短期交通流速度预测模型。第四部分介绍了实验的设置,明确了实验的数据集和评价指标。第五部分介绍和讨论了预测结果以及与一些基线方法的比较。第六部分对全文进行了总结,并对今后的工作进行了展望。

 4.模型架构

基于LSTM-RNN,文章构建了短期交通流速度预测模型。模型初始化一系列矩阵和向量,保存模型参数和中间计算结果。目的是使神经网络在训练过程中有效学习,获得有用的信息。模型中dropout的使用及其比例也会影响训练结果,因此dropout层的调整也是模型参数调整过程中的关键步骤。

注意计算方法的变体主要分为以下几种:软注意、硬注意以及它们之间的注意机制,称为“半软半硬”,即局部注意。图1展示了模型中使用的局部注意力。

4bbe93ed8f3c461b35797d670174c213.png

A. 软注意力和硬注意力

软注意又称全局注意或动态注意,是一种常见的注意机制。软注意是在计算注意分配的概率分布时,对输入序列X中的任意元素给出相应的概率。

软注意是计算概率分布,而硬注意机制的权重是输入序列中的元素在t时刻被选择为输入解码器的信息概率,即会有且只有一个元素被选择。

虽然模型训练中硬注意的成本很低,但对对齐的要求很高。如果元素之间存在依赖关系,则此机制可能会产生负面影响。此外,这种基于最大抽样或随机抽样来指定信息的方法会使损失函数与注意力分布之间的函数关系不可微。注意机制不仅是软或硬的绝对概念,而且是软注意和硬注意之间的一种妥协,即局部注意机制。

B. 局部注意力

全局模型和局部模型的区别在于注意力是集中在所有来源还是只集中在少数来源。每次软注意对齐时,都要考虑之前编码器的所有hi,因此计算量会很大,这可能成为该方法的一个缺点,特别是对于较长的序列,该方法的代价巨大。因此,一个简单的思路是在软注意和硬注意之间做出妥协,即以硬的思想在源序列中找到最有可能的对齐位置,然后以窗口为中心,再以软的思想在窗口上找到一个对齐概率分布,其余为0。这种方法就是局部注意法。它的计算成本比软注意小,与硬注意和软注意相比具有可微性,易于训练。因此,文章采用局部注意变量来计算注意向量。

具体来说,局部注意方法为时刻t的输出在源序列中生成一个对齐位置pt。接下来,在源序列中选择窗口[pt−D, pt + D],通过计算窗口中隐藏层状态的加权平均得到中间向量Ct。当窗口的范围超过源序列的边界时,将以序列的边界为准。与硬注意力机制类似,局部注意力通过两种方式找到pt和计算alpha:

单调对齐(local-m)方法假设对齐位置为pt = t(线性对齐),然后计算窗口内的softmax,窗口外的alpha取0。

预测对齐(local-p)是预测每个目标输出在源序列中的对齐位置,即通过函数预测[0,t]之间的pt。在本文中,我们用这种方法求出pt并计算alpha。

C. 模型结构

在神经网络的设计中,不同的激活函数、损失函数和优化器会对训练性能产生不同的影响。激活函数存在于神经网络的每一层,它在训练方向上起着重要的作用。损失函数可以是目标函数,它是一种计算网络输出与样本标签差值的方法。优化器就是调整节点权重,在网络中起着非常重要的作用。因此,除了调整模型的结构外,还需要比较不同的激活函数、损失函数和优化器选择方案,并根据评估结果进行进一步调整。

注意机制开始进入人们的视野,此时神经网络在各个领域都取得了显著的成就,尤其是在计算机视觉、自然语言处理等方面。基于注意力的模型已广泛应用于谷歌、Facebook、salesforce等互联网公司的AI研究。为了获得更重要的特征,学者们在各种神经网络模型中引入了注意机制。通过模仿人的思维,将不同的注意力分配给目标,将不同重要性的特征进行匹配和划分。

带有注意机制的模型与标准编码器解码器模型的区别在于,它将中间向量转换为向量序列。该模型不需要将所有信息压缩到一个固定维度的向量中,极大地缓解了信息表示不完全和信息稀释覆盖的问题。在解码时,它不再面对单个向量,而是具有选择性,可以选择向量序列中的向量子集进行处理。这样,每次产生输出时,都能充分利用和解释输入序列所传递的信息。

一般来说,注意机制的变化主要从两个不同的方向进行。一是基于注意匹配的计算方法的变化,二是基于注意向量的加权和的变化。文章对第二类变分进行了深入研究,寻求最适合交通流预测的变分计算方法。

文章在模型中引入注意机制,优化了LSTM-RNN结构,增加了一种新机制,在序列中加入高冲击特征,弥补了长序列学习能力的不足,因此模型训练的过程会有所不同。模型结构如图2所示。输入序列是重复的,并通过两种注意机制运行:空间注意和时间注意。空间注意力关注数据的位置细节,通过观察节点及其上游和下游相邻节点的交互和信息模式。空间注意力关注的是交通流在一个物理区域内如何相互作用。同时,输入序列也被输入到模型的时间注意力部分。与空间注意力不同,时间注意力关注的是某一观测点的交通流如何随时间变化。它研究在一定时间内,交通流是如何变化的,变化的模式是什么。它研究的是在一个特定的地点,交通流在当地是如何变化的。然后,一旦输入通过注意机制运行,输出就会通过softmax运行,以获得这种特定注意的最佳结果。

581dd732b8a0c4f2d6f5edee8d1b0e43.png

LSTM-RNN的注意机制可分为4层,如图1所示:混合输入层、隐藏层、注意机制层和输出层。输入层序列为X = (X1, X2,…Xn), h = (h1, h2,…, hn)为隐层。在注意机制层,利用局部注意机制预测输出Yt在输入序列中的对中位置pt,然后在输入序列选择窗口[pt−D, pt + D]中,用生成Yt前隐层节点t−1的输出值st−1,逐个匹配输入序列中每个元素对应的隐层节点的状态。利用函数F(hi, st−1)得到Yt与各对应输入元素对齐的可能性,即权值alpha。匹配过程只需要计算窗口内的元素,窗口外元素的权值直接为0。最后,对输出进行归一化指数函数softmax处理,得到所需的注意力分布概率,并用新增的LSTM单元编码输入Yt。

短期交通流预测模型的总体框架和流程如图3所示。首先对交通流速度时间序列数据进行稳定归一化处理,选择合适的小波函数对序列进行分解,得到趋势序列和残差序列,输入模型进行模型训练。模型的构建过程是通过对任务的分析研究,选择最优的模型结构、深度、功能等,在模型训练中不断更新参数,直到达到终止条件。如果训练不满足要求,则更新训练样本,下一轮继续训练模型。训练结束后,保存模型训练结果,包括训练中使用的网络系统以及训练后各节点之间的权重关系。成功保存模型后,可以进行测试。用同样的方法处理试验数据,然后输入模型进行预测。将最终结果与实际数据进行比较,得到模型的预测精度。综合训练时间等指标可以综合评价模型的性能和效率。

ab40b248d57fa545ec004e61e4cf29a2.png

 5.实验

A. 数据集

用于训练和测试模型的交通流数据来自Performance Measurement System (PeMS)。PeMS数据由美国加利福尼亚州的4万多个探测器实时收集。它是维护得最好的交通数据源之一。

文章选取了两个检测器的流量数据。他们都在I-5北公路上,这是美国西海岸主要的南北州际公路。两个探测器都位于圣地亚哥县,位于州际公路的一个繁忙路段,那里的交通量很大。ID 1114219和ID 1118170两个探测器在北方向有6个和4个通道。两种探测器的地理位置信息如图4所示。

64394cb57d8bcde9933538ac5bc0ed9c.png

交通流量数据选取了2021年3月6日12:00AM至2021年3月12日23:59PM这一周的交通流量数据。数据收集间隔为5分钟。探测器在两个探测器上采集4车道或6车道中每车道的交通流数据。2021年3月8日两个探测器的交通流样本如图5所示。

4a184c74e67ac704aaa5f4fb42d959bc.png

Attention

欢迎关注微信公众号《当交通遇上机器学习》!如果你和我一样是轨道交通、道路交通、城市规划相关领域的,也可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/342419
推荐阅读
相关标签
  

闽ICP备14008679号