当前位置:   article > 正文

Interactive Natural Language-Based Person Search基于交互式自然语言的人员搜索_interactive natural language-based pperson search

interactive natural language-based pperson search

该方法Pythia-reID具有一定的人机交互功能,在实际情况下性能比较优越。

动机:
基于语言的re-ID可以看作是视觉问题回答(VQA)任务。在基于语言的检索过程中,如果描述不够有区别,用户提供的信息可能不足以识别POI。因此,本文研究了一种引导策略,即机器人主动地按顺序要求用户提供特定的外观特征,而不是被动地给予用户描述目标人物的自由。为此,我们定义了一组足以覆盖人的外观的引导问题,并通过它们在减少人的搜索中的不确定性方面的重要性来优化排序。因此,生成的机器人可以与用户交互,如果当前描述不足以识别POI,则动态地请求附加信息。

贡献:
1.通过适当地适应VQA模型,提出了一种基于语言的人员搜索算法,从而可以与最新方法相媲美。(修改的是一种名为Pythia[11]的领先的VQA算法,该算法融合了基于lstm的句子嵌入和语言引导的视觉注意力,并赢得了2018年VQA挑战赛。)
2.通过设计一组有关人的视觉外观的指导性问题,创建了一个补充性问答数据集(CUHK-QA)。开发了一种离线策略(一种贪婪算法,能够对问题的重要性进行排序,具有根据模型s的不确定性动态调整人机交互长度的能力),以将问题按顺序排列以最大化人员搜索性能。在选择问题时,与随机基准策略相比,我们的策略表现出更出色的性能。该策略允许机器人向用户请求关于POI外观的附加信息。
3.开发了一种信息理论方案来量化与当前人员搜索结果相关的不确定性,从而使机器人能够决定是否要求其他信息。因此,该方法允许在re-ID准确性和人机交互长度之间进行权衡。
4.在无限制环境中的移动机器人上验证算法,移动机器人在动态和拥挤的环境中移动。通过进行离线和在线研究,展示了在实际情况下方法的鲁棒性。

提出了re-ID问题的公式
在这里插入图片描述
Pythia-reID框架
在这里插入图片描述
首先,分别从图像和描述中提取图像和文本特征。随后,由于两个内容的相似性,得出对应于答案“是”和“否”的可能性。浅色箭头表示预训练的模块。
实验:
数据集CUHK-PEDES
在这里插入图片描述
上表是仅依赖用户描述u,未加入贪婪算法获得的结果,可以与一些方法进行比较。
之后根据并非所有查询问题对于人员搜索问题都具有同等的价值。一个人的外表的某些方面可能比其他方面更具特色的结论加入贪婪算法,贪婪算法的结构如下图所示:
在这里插入图片描述
由于不存在使用迭代式提问进行基于自然语言的人搜索的数据集,因此我们建立了自己的基准。提出了一个新的数据集CUHK-QA,数据集的相关内容如下:
在这里插入图片描述
在这里插入图片描述
相对于CUHK-PEDES数据集,句子长度更长,且采用迭代式提问。数据集链接https://github.com/vikshree/QA_PersonSearchLanguageData
在使用贪婪算法后,能够有效证明按照顺序提出问题,能够有效提高性能。

提出的信息理论方案:建议将亲和力得分分布的熵作为预测不确定性的度量标准。假设了一种基于阈值的方法,在该方法中,机器人将继续提问以产生更多信息,直到达到预定的熵水平为止。此水平称为不确定性预算。

验证在实际情况中的有效性,进行了机器人实验。
机器人实验包括离线实验和在线实验(离线实验与在线实验设置不尽相同)。
离线实验
表明随机的提问顺序会导致高的排名差异和较差的表现,不确定性预算允许在向用户提出的问题数量与平均等级之间进行权衡 搜索算法的性能。
在线实验
表明当向用户提出更多问题时,搜索算法会发现更多的人。另外,随着时间的流逝,正确匹配的人数也会增加。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/酷酷是懒虫/article/detail/1003195
推荐阅读
相关标签
  

闽ICP备14008679号