赞
踩
Fig. 1,与传统HOI相比,本文所提出的HOI增加了交互性知识的学习
Fig. 2,图二中展示了HOI中(人,物)所构成的图,并且由提出的非相关抑制将稠密图变为稀疏图,然后进行分类。
我们的TIN框架的概述如 Fig. 3所示。
简要介绍表示网络R和分类网络C
Representation Network,在训练和测试过程中,R被冻结,并作为一个特征提取器。给定检测到的边界框,我们通过根据框坐标裁剪ROI池特征图来生成人和对象特征
Classification Network,使用多流架构和后期融合策略,如Fig. 5所示,分为人、物和空间三个通道,确定多个人和物的交互性需要用到空间流进行判断。
交互性网络d被设计用于二进制分类:交互式/非交互式,d中有四种流(人、物体、空间姿态和部分),每一种流都侧重于图像中HOIs的不同元素。交互性网络D的体系结构如Fig. 4所示。
需要通过提取和组合基本信息来学习交互性。显然需要人和物体的视觉外观。此外,交互式和非交互式对还具有其他显着特征,例如空间位置和人类姿势信息。
D需要将所有这些关键元素编码在一起,以学习互动性知识。
探索在互动学习中采用人体部分特征。
首先使用姿态估计构建了10个零件框Fig. 6,即头部、上臂、手、臀部、大腿和脚。每个零件箱都以相应的检测接头为中心。零件盒的大小是通过测量颈部和骨盆关节之间的距离来决定的。其次,对于部分流,我们从检测到的部分框中提取ROI池特征作为部分特征。
D中有11个结构交互的二值分类器(Fig. 4中的“交互分类器”),即10个部分交互,实例交互1个。它们都将上述四个流中的四种特征作为输入,并由简单的连接操作和全连接层层构造。交互性分类器的详细结构如Fig. 4右上方所示。
当且仅当至少一个身体部位与物体互动时,人是互动的,当且仅当没有一个互动时,人不是互动的。
对于一个人-对象对,我们的方法的预测应该遵循:
预测的交互性得分来构建一致性损失:
综上所述,交互性鉴别器D的损失可以表示为:
如Fig.7,提出了一种低级别抑制功能(LIS),它具有增强区分高低级别物体检测的能力。高分检测对象将被强调并与低分对象区分
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。