当前位置:   article > 正文

【KD】2023 AAAI Oral Open-Vocabulary Multi-Label Classification via Multi-Modal Knowledge Transfer

open-vocabulary multi-label classification via multi-modal knowledge transfe

目录

简介

 一、 背景与挑战

二、解决思路

三、技术贡献

四、技术方案

4.1 Backbone 网络和双流模块 

4.2 知识蒸馏和特征对齐

4.3 标签 Embedding 的提示学习

4.4 损失函数

五、算法效果

六、总结


简介

多标签分类系统中,经常遇到大量在训练集中未曾出现的标签,如何准确地识别这些标签是非常重要也极富挑战性的问题。为此,腾讯优图实验室联合清华大学和深圳大学,提出了一种基于多模态知识迁移的框架 MKT,利用图文预训练模型强大的图文匹配能力,保留图像分类中关键的视觉一致性信息,实现多标签场景的 Open Vocabulary 分类。本工作已入选 AAAI 2023 Oral。

论文链接: 

https://arxiv.org/abs/2207.01887

代码链接: 

https://github.com/sunanhe/MKT

 一、 背景与挑战

图像多标签识别算法的目标,是识别图像中存在的所有类别标签。作为计算机视觉应用中的一项基础能力,在场景理解、监控系统、自动驾驶等任务中有着广泛的应用。在实际落地场景中,多标签识别系统不仅需要

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/682742
推荐阅读
相关标签
  

闽ICP备14008679号