赞
踩
论文链接:https://arxiv.org/pdf/2110.06161.pdf
论文代码:https://github.com/jackyjsy/SAM-SLR-v2
在这项工作中,我们关注的是isolated SLR任务。我们提出了一个骨架感知的多模态SLR框架集成模型(SAM-SLR-v2),以探索基于骨骼的SLR的潜力,并与其他模式融合RGB和RGB- d场景进一步提高识别率。
具体地说,我们设计了一种新的时空骨架图,利用预训练的全身姿态估计器提取全身关键点。
然后,我们提出了一个多流手语图卷积网络(SL-GCN)来模拟嵌入式动态。
为了充分利用全身关键点的信息,我们提出了一种新方法可分离时空卷积网络(SSTCN)研究全身骨骼特征。
此外,对动作识别的研究表明,来自不同模式的数据可以相互补充,提供潜在相关性的知识,并进一步提高最终的性能。
尽管我们可以简单地将所有模式的预测相加以获得更高的准确性,但我们希望有一种方法能够以数据驱动的方式为每个模式调整最佳权重。因此,我们提出了一种全局集成模型(Global Ensemble Model,GEM)来自动学习多模态集成,提高整体识别率。
主要贡献可以概括如下:
(1)使用预训练的全身姿态估计器和graph reduction,构建了全新的2D和3D的骨架图来进行SLR,无需额外的注释工作。
(2)提出了一种新的SL-GCN来建模骨架图中的运动。据我们所知,这是利用2D/3D全身骨骼图来解决SLR任务的第一次成功超越了基于rgb的方法的尝试。
(3)提出了一种新的SSTCN来进一步挖掘全身骨骼特征。与传统的三维卷积算法相比,该算法的精度有明显提高。
(4)提出了一个集成模型GEM的基于RGB和RGB-D的SLR,可以从七种模式中学习权重,并在三个isolated SLR数据集上获得最先进的性能,具有显著的性能优势。
与我们的SAM-SLR版本相比,我们做了以下改进:
(1)引入了一种新的模式Keypoint3D,它考虑空间中的三维坐标并处理遮挡问题。提高了RGB-D集成的整体识别率。
(2)提出了一种新的基于学习的后期融合集成方法GEM,该方法在多模态集成中获得了更高的识别率,并且节省了权重调优的工作量。
(3)AUTSL数据集的测试标签已经发布,因此我们将性能从验证集更新到测试集。
(4)除了挑战数据集(AUTSL),我们还报告了我们在另外两个大规模数据集上的性能(即SLR500和WLASL2000)与最先进的方法进行比较。
(5)我们更新了我们的数据,提供了更多的模型细节,分析了集成灵敏度,并讨论了具有挑战性的情况,这些可能会启发未来SLR的研究.
(1)Graph Construction and Reduction.
由于手势在表演手语中起着至关重要的作用,我们使用一个经过全身注释预处理的姿势估计器来预测全身关键点,其中包括脸、身体、手和脚的133个landmarks。
然后根据人体的自然连接,将每对相邻的关键点连接起来,构建出一个spatial 2D graph。
通过在时间维度中连接所有节点自身,该图进一步扩展为spatio-temporal graph。
节点(包括133个全身节点)的数学表达为:
它们的邻接矩阵(adjacent matrix)A定义为:
然而,与基于骨骼的动作识别中使用的约17个节点的图相比,全身骨骼图包含过多的节点和边缘,引入了高水平的意外噪声。
此外,如果两个节点之间的距离太远(即节点之间有很多节点),探究它们之间的相互作用是不准确的。
我们的实验表明,简单地使用全身骨架图会导致较低的准确性。
因此,根据我们对GCN激活视频和可视化的观察,我们对全身骨架图进行了graph reduction ,将133个节点裁剪到27个节点。
得到的图由上半身的七个节点(鼻子、眼睛、肩膀和肘部)和每只手的十个节点组成,如图2©所示。
graph reduction导致更快的模型收敛和显著提高识别率。
2D graph中的每个节点用(x;y;s)其中x-y为2D坐标,s为置信度分数。
当深度信息可用时,我们通过在关键点位置x-y处读取相应的深度z来构造一个3D图,并将其作为一个附加维度(x;y;z;s),如图2(d)所示。
(2)Graph Convolution
(3)Multi-stream SL-GCN.
(4)SL-GCN Structure
(1)Model-free Late Fusion
(2)Global Ensemble Model
SLR500数据集是一个用于isolated SLR的平衡中文手语数据集(有时也称为CSL isol.),包含500个单词,50个signers。
所有50名signers将每个单词表演5次,所以总共有125000个视频。
该数据集是在一个受控制的实验室环境中捕获的,具有纯色背景。
前36名签名者用于培训,后14名签名者用于测试。
包括其它手语数据集如表1所示:
AUTSL Dataset
SLR500 Dataset
WLASL2000
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。