当前位置:   article > 正文

Motion generation/synthesis evaluation metrics_generating diverse and natural 3d human motions fr

generating diverse and natural 3d human motions from text

MDM

R-precision and Multimodal-Dist

the relevancy of the generated motions to the input prompts

FID

the dissimilarity between the generated and ground truth distributions (in latent space)

Diversity

the variability in the resulting motion distribution

MultiModality

the average variance given a single text prompt.

Reference

在这里插入图片描述

T2M

Text to Motion

FID

预训练的motion enc提取生成运动和GT的特征,然后计算分布相似性。

R-Precision

text-motion pair塞入其他31个text,找到前三个最符合motion的text。

Diversity

由所有测试文本生成的motion,全部打乱然后两两成对,计算关节差异。

Multi-modality

一个text生成32个运动,计算关节位置差异。

Multi-modal Distance

从text-motion pair分别提取俩模态特征并计算距离

A2M

Action to Motion

不是t2m,数据集并不是HumanML3D和KIT
是NTU-RGB-D, CMU MoCap, HumanAct12, UESTC

在每个数据集上训练一个RNN action recognition classifier提取运动特征并分类,就能分割出motion feature extractor,这个运动特征提取器就是motion diffuse里的motion encoder

FID

从3000个生成运动和真实运动中提取特征,计算特征分布的相似性

Recognition Accuracy

用classfier对3000个运动分类,分类结果视为GT,计算与action标签的匹配程度
若不符合,则认为是生成模型不够好导致生成运动有偏差。
这就是后来的R-precision

Diversity

所有action标签生成的所有运动中,采样两个长度相同的子集,并提取特征
计算
在这里插入图片描述

Multi-modality

与纵横整个数据集的Diversity不同,这个衡量每个action标签生成结果的多样性。
给定 C 个action标签,对每个标签执行类似diversity的操作:
在这里插入图片描述

Generating Diverse and Natural 3D Human Motions from Text

action2motion,action类似标签
t2m的输入可以和数据集中的文本不同

为了测试模型的生成能力,满足评价指标的计算,训练了文本特征提取器和运动特征提取器,它俩并不是独立的,要用对比损失训练,训练结果对motion-text pair提取出的两个特征是几何接近的,反之亦然,非匹配motion-text pair提取出的特征几何距离远
在这里插入图片描述
在这里插入图片描述
图b的E代表运动自编码器

对比损失如下
y=0代表匹配的t-m对:
在这里插入图片描述

FID

从test set分别提取real motion和generated motion from corresponding descriptions,然后计算特征分布的相似性;

Diversity & MultiModality

same with action2motion

R-precision

对于每一个生成的运动,GT描述和随机描述的文本特征和运动特征计算欧氏距离,如果和GT的距离不够小(随机描述和生成运动的距离更小),则视为生成运动不行。
top-k意为GT描述在前k名内就算生成运动质量好,显然top1要求最严格。

MultiModal Distance

生成motion和对应的text组成pairs,提取每个pair的特征向量,计算平均欧氏距离

本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号