赞
踩
the relevancy of the generated motions to the input prompts
the dissimilarity between the generated and ground truth distributions (in latent space)
the variability in the resulting motion distribution
the average variance given a single text prompt.
Text to Motion
用预训练的motion enc提取生成运动和GT的特征,然后计算分布相似性。
text-motion pair塞入其他31个text,找到前三个最符合motion的text。
由所有测试文本生成的motion,全部打乱然后两两成对,计算关节差异。
一个text生成32个运动,计算关节位置差异。
从text-motion pair分别提取俩模态特征并计算距离
Action to Motion
不是t2m,数据集并不是HumanML3D和KIT
是NTU-RGB-D, CMU MoCap, HumanAct12, UESTC
在每个数据集上训练一个RNN action recognition classifier
提取运动特征并分类,就能分割出motion feature extractor
,这个运动特征提取器就是motion diffuse里的motion encoder。
从3000个生成运动和真实运动中提取特征,计算特征分布的相似性
用classfier对3000个运动分类,分类结果视为GT,计算与action标签的匹配程度
若不符合,则认为是生成模型不够好导致生成运动有偏差。
这就是后来的R-precision
所有action标签生成的所有运动中,采样两个长度相同的子集,并提取特征
计算
与纵横整个数据集的Diversity不同,这个衡量每个action标签生成结果的多样性。
给定 C 个action标签,对每个标签执行类似diversity的操作:
action2motion,action类似标签
t2m的输入可以和数据集中的文本不同
为了测试模型的生成能力,满足评价指标的计算,训练了文本特征提取器和运动特征提取器,它俩并不是独立的,要用对比损失训练,训练结果对motion-text pair提取出的两个特征是几何接近的,反之亦然,非匹配motion-text pair提取出的特征几何距离远
图b的E代表运动自编码器
对比损失如下
y=0代表匹配的t-m对:
从test set分别提取real motion和generated motion from corresponding descriptions,然后计算特征分布的相似性;
same with action2motion
对于每一个生成的运动,GT描述和随机描述的文本特征和运动特征计算欧氏距离,如果和GT的距离不够小(随机描述和生成运动的距离更小),则视为生成运动不行。
top-k
意为GT描述在前k名内就算生成运动质量好,显然top1要求最严格。
生成motion和对应的text组成pairs,提取每个pair的特征向量,计算平均欧氏距离
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。