当前位置:   article > 正文

论文阅读-《PoseFormerV2: Exploring Frequency Domain for Efficient and Robust 3D Human Pose E》

poseformerv2

        这篇论文提出了一个名为PoseFormerV2的新型3D人体姿态估计方法,它通过在频率域上对长序列的2D关节数据进行紧凑表示,有效地扩大了模型的感受野并增强了对噪声的鲁棒性。具体来说,PoseFormerV2利用离散余弦变换(DCT)来捕捉输入关节序列的低频成分,这些成分足以代表整个序列的视觉身份,同时滤除了由2D关节检测器引入的噪声。通过最小化对原始PoseFormer架构的修改,PoseFormerV2在时间域和频率域上融合特征,实现了比前身更好的速度-精度权衡。在Human3.6M和MPI-INF-3DHP这两个基准数据集上的广泛实验表明,PoseFormerV2在处理长序列输入和对噪声鲁棒性方面均优于现有的基于变换器的方法,达到了当前最先进的性能水平。

目录

1 概述

1.1 背景与挑战

1.2 方法

1.3 架构

1.4 创新点总结

2 摘要

3 介绍

3.1 PoseFormer面临的挑战

3.2 PoseFormerV2的改进

3.3 主要贡献

4 相关工作

4.1 基于Transformer在3D HPE中的探索

4.2 在计算机视觉中的频率表征

5 方法

5.1 PoseFormerV1

5.2 PoseFormerV2

5.2.1基于骨架序列的频率表示

5.2.2 架构

5.2.2.1 空间编码器

5.2.2.2 低频DCT系数

5.2.2.3 时频特征融合

5.2.2.4 回归头和Loss函数

5.2.2.5 FreqMLP

6 实验

6.1 数据集及评估指标

6.1.1 数据集

6.1.2 评估指标

6.2 实验细节及分析

6.3 与其他先进方法的比较

6.3.1 Human3.6M.数据集

6.3.2 MPI-INF-3DHP. W数据集

6.4 消融实验

6.4.1 消融实验1:转换PoseFormerV1为PoseFormerV2

6.4.2 消融实验2:输入帧数和DCT系数的数量

6.5 泛化能力

7 结论


1 概述

        这篇论文介绍了一种新的3D人体姿态估计方法,名为PoseFormerV2。这种方法旨在提高处理长序列输入的效率,并增强对嘈杂2D关节检测的鲁棒性。下面是对论文内容和使用的方法的具体介绍:

1.1 背景与挑战

        传统的基于变换器的方法(如PoseFormer)在2D到3D的人体姿态估计中取得了成功,但在处理长序列输入和对2D关节检测噪声的鲁棒性方面存在局限。

        这些方法通常对输入序列的所有帧应用自注意力,导致计算成本随着帧数增加而显著提高。

1.2 方法

        PoseFormerV2:提出了PoseFormerV2,它利用频域中的紧凑表示来处理长骨架序列,从而有效扩展接收场并提高对嘈杂2D关节检测的鲁棒性。

        频域表示:通过离散余弦变换(DCT)将骨架序列转换到频域,并只使用部分低频系数来编码输入时间序列的多级时间信息,其中低频系数编码序列的大致轮廓,高频系数编码细节(如抖动或突变)。

1.3 架构

        PoseFormerV2继承了PoseFormer的空间-时间架构,但对空间变换器编码器进行了修改,使其只观察长序列中的少数中心帧。然后,它将这些“短视”的帧级特征与完整序列的低频分量的全局特征相结合。

        特征融合:提出了一个时间-频域特征融合模块,该模块采用变换层来模拟跨帧的时间依赖性,并将时域和频域特征融合在一起。

1.4 创新点总结

1. 频域表示:

        V2引入了频域表示,特别是通过离散余弦变换(DCT)将输入的2D骨架序列转换到频域,并只使用低频系数来表示序列。这种表示方法可以有效地捕捉序列的整体趋势,同时过滤掉高频噪声,如关节检测中的抖动和异常值。

2. 时间-频率特征融合:

        V2设计了一个时间-频率特征融合模块,该模块结合了时域中的特征(来自少数中心帧的空间Transformer编码器)和频域中的特征(来自完整序列的低频DCT系数)。这种融合方法使得模型能够同时利用局部的精细动作信息和全局的序列信息。

3. 改进的Transformer结构:

        V2对Transformer结构进行了改进,使其能够更好地处理时域和频域的特征。这包括对自注意力机制的修改,以及引入了一个特殊的多层感知器(FreqMLP),它在频域特征的前馈网络中使用DCT和逆DCT来调整每个频率成分的权重。

2 摘要

背景:基于变换器的方法在顺序化的2D到3D人体姿态估计中取得了显著的成功。作为开创性的工作,PoseFormer通过级联的变换器层通过捕获每个视频帧中人体关节的空间关系以及跨帧的人体动态实现姿态估计。

挑战:PoseFormer在实际应用中面临两个主要问题:① 输入序列的长度限制;② 对2D关节检测质量的依赖,现有方法通常对输入序列的所有帧应用自注意力,当增加帧数以获得更高级的估计精度时,会导致巨大的计算负担,并且它们对2D关节检测器有限能力所带来的噪声并不鲁棒。

解决方案:文章提出的PoseFormerV2通过在频域中对骨架序列进行紧凑的表示,有效地扩展了接收场,并增强了对嘈杂2D关节检测的鲁棒性,从而解决了上述问题。这种方法通过最小化的架构改动,有效地结合了时域和频域的特征。

实验结果:在Human3.6M和MPI-INF-3DHP两个数据集上的实验显示,PoseFormerV2在速度和准确性的权衡上超越了PoseFormer和其他基于变换器的方法。

3 介绍

        前半部分对于3D HPE的介绍与PoseFormer一致,主要从PoseFormer目前的缺陷以及V2做出的改进讲起。关于PoseFormer的具体介绍见上一篇。

3.1 PoseFormer面临的挑战

        PoseFormer模型在性能上主要受到了两个因素的限制:

        ① 输入2D骨架序列长度:为了获得先进的性能,基于变换器的方法通常需要使用非常长的输入序列,现有方法通常对输入序列的所有帧应用自注意力,导致计算负担巨大,且对2D关节检测的噪声敏感。例如,PoseFormer使用81帧,P-STMO使用243帧,而MHFormer使用351帧。对于这些长序列使用自注意力机制进行处理在计算上非常昂贵。例如,在RTX 3090 GPU上,3帧的PoseFormer单轮训练成本约为5分钟,而81帧的PoseFormer成本激增至约1.5小时。

        ② 2D关节检测的质量:2D关节检测器由于其训练数据集的偏差以及单帧估计范式带来的时间一致性问题,不可避免地会引入噪声。例如,在Human3.6M数据集上,使用ground-truth 2D检测的PoseFormer达到了31.3mm的MPJPE(Mean Per Joint Position Error,每个关节的平均位置误差)。当将ground-truth的输入替换为CPN [6] 2D姿态检测时,这个结果显著下降到44.3mm。

        在实际应用中,PoseFormer可能会有长序列推理很难部署在资源有限的设备的硬件上(如AR/VR头显),且很难获得高质量的2D检测的挑战。

        表1提供了有关现有基于变换器的方法处理长序列的效率以及对嘈杂2D关节检测的鲁棒性的更多定量结果。

 Tips:ground-truth

"ground truth"(真实值或真实数据)指的是真实、准确且客观的数据,通常用作评估模型性能的标准答案或基准。在3D人体姿态估计的上下文中,ground truth指的是人体关节在3D空间中的真实位置。当使用ground-truth作为输入时,他的作用可能是:

1. 数据集的ground truth标注:在训练和评估3D人体姿态估计模型时,通常有一个数据集,其中包含了视频帧或图像以及对应的人体关节的3D位置标注。这些标注是人工标注或使用高精度设备(如运动捕捉系统)获得的,代表了关节位置的真实值。

2. 评估模型性能:为了评估模型的性能,会将模型预测的3D姿态与ground truth进行比较。常用的评估指标,如MPJPE(Mean Per Joint Position Error),会计算模型预测的关节位置与ground truth之间的平均欧氏距离。

3. 使用ground truth进行训练:在某些情况下,可能会使用ground truth数据来训练模型,尤其是在数据量有限或为了获得最佳性能时。

4. 消融研究:在消融研究中,研究者可能会使用ground truth数据来测试模型在没有2D检测噪声干扰时的性能,以此来评估模型对2D检测噪声的敏感度。

5. 模型的上限性能:通过使用ground truth 2D关节检测数据作为输入,研究者可以评估模型在理想情况下的上限性能,即在没有2D检测误差时模型能够达到的最好结果。 

        在PoseFormer面临的挑战下, 作者主要提出了两个关键问题:

        1. 如何有效地利用长关节序列获得更好的估计精度?

        这个问题关注的是如何从视频序列中提取并利用长期的时间信息来提升3D人体姿态估计的准确性。在视频数据中,长关节序列包含了丰富的动态信息,可以帮助模型更好地理解人体运动和姿态变化。然而,处理这些长序列数据也带来了挑战,包括但不限于:

        ① 计算复杂性:长序列数据需要更多的计算资源,尤其是在应用自注意力机制时。

        ② 内存消耗:长序列可能导致模型的内存需求大幅增加。

        ③ 信息冗余:并非所有帧的信息都是对最终姿态估计至关重要的。

        2. 如何增强模型对不可靠2D姿态检测的鲁棒性?

        这个问题关注的是提高模型对2D姿态检测噪声的容忍度。在实际应用中,2D姿态检测器可能会因为遮挡、快速运动、复杂背景等因素产生误差。这些误差会对3D姿态估计的结果产生负面影响。

3.2 PoseFormerV2的改进

        一些工作尝试通过引入手工设计的模块来解决这些问题,例如:

        1. 下采样和上采样模块:只处理视频帧的一部分以提高效率。

        2. 多假设模块:模拟身体部位的深度歧义和2D检测器的不确定性。

        但是这些方法并不能同时解决上述的两个问题,例如多假设方法虽然提高了鲁棒性,但也带来了额外的计算成本。

        But!!!作者提出了可以用频域同时解决这两个问题。由于低频分量足以表示整个视觉身份(例如,在图像压缩中的2D图像和本例中的关节轨迹),因此不需要对所有帧进行自注意力计算。另外骨架序列的低频表示本身可以滤除检测到的关节轨迹中的高频噪声(抖动和异常值)。将输入骨架序列编码为低频系数,模型可以在不牺牲准确性的情况下减少计算量,并且由于噪声的减少,还可以提高对不准确2D检测的鲁棒性。具体结果见表1.

        PoseFormerV2主要进行了如下改进:

        1. 空间-时间架构的继承与改进:PoseFormerV2继承了PoseFormer的空间-时间架构,但对空间变换器编码器进行了修改,使其只关注长序列中的少数中心帧。

        2. 短视帧级特征与全局特征的结合:将空间编码器输出的“短视”帧级特征与完整序列的低频分量中的全局特征相结合,使用全局特征来对短视特征进行补充。

        3. 时间-频率特征融合模块:避免了对所有时间步长使用昂贵的帧到帧自注意力计算,而是重新构思了时间变换器编码器作为一个时间-频率特征融合模块。

        在Human3.6M和MPI-INF-3DHP两个3D人体姿态估计基准数据集上的广泛实验表明,PoseFormerV2在速度-准确性权衡和对2D关节检测噪声的鲁棒性方面显著优于其前身PoseFormer以及其他基于变换器的变体。

3.3 主要贡献

        1. 据作者所知,他们是第一个在2D到3D姿态提升的人体姿态估计(HPE)中使用输入关节序列的频域表示的研究者。他们发现这种表示方式可以同时解决该领域中的两个重要问题:处理长序列的效率和对不可靠关节检测的鲁棒性,并且实验证据表明这种方法可以轻松地推广到其他模型。

        2. 设计了一个有效的时间-频率特征融合模块,以缩小时域特征和频域特征之间的差距,从而使速度和准确性之间实现灵活的平衡。

        3. PoseFormerV2在Human3.6M数据集上的表现在速度-准确性权衡和鲁棒性方面优于其他基于变换器的方法,并且在MPI-INF-3DHP数据集上达到了最先进的水平。

4 相关工作

        在这一板块作者概述了PoseFormerV2方法的动机和技术路线,旨在从频域的角度提高原始PoseFormer模型处理长序列数据的效率和对噪声关节检测的鲁棒性。所以在这里主要介绍了基于Transformer的2D-to-3D lifting HPE ,以及频域在计算机视觉中的应用。

4.1 基于Transformer在3D HPE中的探索

        PoseFormer是第一个采用TransFormer作为骨架网络的2D-to-3D lifting HPE 方法,其性能远远超越了CNN的方法。

        Mixste:Zhang等人[40]指出PoseFormer的空间-时间范式可能会忽视每个关节独特的时间模式,并提出采用交替的空间-时间变换器层进行细粒度的关节特定特征提取——用于视频中三维人体姿态估计的Seq2seq混合时空编码器。

        MHFormer:MHFormer[15]进一步将与任务相关的先验知识整合到变换器中,用于3D人体姿态估计。具体来说,2D到3D的姿态提升是一个逆问题,存在多个合理的解决方案,因此MHFormer生成多个假设来模拟模糊的身体部位和关节检测器中的不确定性,实现了先进的性能。

        P-STMO的自监督学习:受图像分类中掩码图像建模(Masked Image Modeling, MIM)进展的启发,P-STMO[29]将掩码关节建模应用于3D人体姿态估计,并采用自监督学习方法。

        Transformer方法的效率提升:另一系列工作[9, 14]旨在提高基于变换器方法的效率。利用2D关节序列中的时间冗余,Strided Transformer[14]用步进卷积替换了参数繁重的全连接层。Einfalt等人[9]声称每帧2D关节检测的计算成本甚至比提升模型本身还要高,并提出以固定间隔对输入视频帧进行下采样,并仅在这些采样帧上采用2D关节检测器和提升模型。虽然上述方法[9, 14]比之前的方法更高效,但它们通过仅使用相邻视频帧的一致性而不是全局视角,沿时间维度减少自注意力的参与者数量,因此可能会遭受相当大的性能下降。

4.2 在计算机视觉中的频率表征

        由于人类视觉系统对图像的低频成分更为敏感。因此,传统的图像压缩算法(如JPEG和JPEG 2000)通过为图像的低频离散余弦变换(DCT)系数分配更多的存储预算来减少存储2D图像的内存成本。基于类似的逻辑,一些研究(如[37])提出通过自适应地移除DCT分量中的非信息通道来提高2D图像分类的效率。

        对于以2D骨架序列为输入的骨架基础任务(如人体运动预测),先前的工作(如[19]和[20])将骨架序列从时域变换到DCT系数,以编码人体动态,而非静态关节坐标。他们观察到丢弃一些高频系数并不一定会导致性能下降,甚至会提高预测的平滑度。但是,二维关节序列的频域表示尚未在基于lifting的三维人体姿态估计中进行探索。、

5 方法

5.1 PoseFormerV1

详见论文阅读-PoseFormer:《3D HumanPose Estimation with Spatial and Temporal Transformers》-CSDN博客

5.2 PoseFormerV2

5.2.1基于骨架序列的频率表示

        作者提出使用离散余弦变换(Discrete Cosine Transform, DCT)将输入的骨架序列(例如由CPN检测到的人体关节轨迹)转换到频域,并只利用低频系数的一部分。DCT系数为输入时间序列编码了多个时间信息层级。低频系数编码了其大致轮廓,而高频系数编码了其细节,例如抖动或锐变。DCT的系数能够对输入的时间序列数据(在这个上下文中是骨架序列)进行编码,捕捉并表示该序列在不同时间尺度上的信息。

Tips:专有名词解释:

时间序列:是按照时间顺序排列的数据点集合,例如视频中连续帧的骨架数据。

多级时间信息:时间序列中的信息可以在不同的时间尺度上存在。例如,长期信息可能涉及整个动作的持续和整体趋势,而短期信息可能涉及动作中的快速或细微变化。

DCT系数:DCT是一种将时间域信号转换为频率域表示的数学工具。DCT的结果是一个系数集合,每个系数代表了信号在特定频率下的成分。

低频系数:DCT变换后的低频系数通常对应于时间序列中的慢变化或主要趋势。它们编码了时间序列的粗糙轮廓,反映了整体的动作模式。

高频系数:相对地,DCT变换后的高频系数则对应于时间序列中的快速变化或细节信息,如动作中的抖动或突然变化。

编码:通过DCT变换,原始的时域信号被转换为一系列频率成分,这些成分可以被看作是对原始信号在不同时间尺度上变化的编码。

        为了更好地说明选择这种表示的动机,作者提供了一个81帧的示例,展示了Human3.6M数据集中动作“Directions”的CPN检测到的关节轨迹,以及使用前3个、9个和27个DCT系数分别重建的轨迹(见图3)。

        随着保留的DCT系数数量的增加,重建的轨迹越来越接近原始输入,但平滑度降低。值得注意的是,即使只使用3个DCT系数(橙色曲线表示),也能捕捉到原始轨迹的整体趋势。而使用9个和27个系数(粉色和绿色曲线)时,原始序列的特征被更好地保留,同时去除了高频噪声(锯齿状波动)。这些观察结果激发了作者利用输入关节序列的几个高度信息性的低频DCT分量作为紧凑且去噪的序列表示。通过这种表示,可以显著减少输入序列的有效长度,并提高模型对2D关节检测中包含的噪声的鲁棒性。

5.2.2 架构

5.2.2.1 空间编码器

        空间编码器的设计直接遵循了PoseFormerV1

5.2.2.2 低频DCT系数

        时域特征(Ztime)被称为“短视”的,因为它们的接受野(F')与整个序列长度(F)相比是有限的(在使用自注意力机制的模型中,虽然理论上可以捕捉长距离依赖,但实际上可能通过注意力权重来集中于序列中的特定部分,而不是均匀地关注所有帧。)。这意味着时域特征只能捕捉到序列中有限的局部信息。为了有效利用原始序列中的长距离人体动态,作者转向使用频域表示。具体步骤如下:

5.2.2.3 时频特征融合

        "Time-Frequency Feature Fusion"(时频特征融合)是一种将时域特征和频域特征结合起来的方法,以提高模型对跨帧时间依赖性的建模能力。为了缩小时域和频域之间的差异,网络对标准的变换器层进行了简单的修改:

        (1) 时域和频域特征共享自注意力机制,但使用独立的前馈网络(Feed-Forward Networks, FFNs)。

        (2) 对于时域特征

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/950392
推荐阅读
相关标签