赞
踩
论文链接:TransZero: Attribute-guided Transformer for Zero-Shot Learning
开源代码:https://github.com/shiming-chen/TransZero
本文介绍我们被机器学习顶会AAAI 2022接收的论文 “TransZero: Attribute-guided Transformer for Zero-ShotLearning”。零样本学习 (ZSL) 旨在通过将语义知识从已见类迁移到未见类来识别新类。语义知识是从不同类别之间共享的属性描述中学习的,这些属性描述作为定位代表判别区域特征的对象属性的强先验,实现了重要的视觉语义交互。尽管一些基于注意力的模型试图在单个图像中学习此类区域特征,但视觉特征的可转移性和判别性属性定位通常被忽略。在本文中,我们提出了一个属性引导的 Transformer 网络,称为 TransZero,以细化视觉特征并学习 ZSL 中判别视觉嵌入表示的属性定位。
Zero-shot learning (ZSL)指的是我们之前没有这个类别的训练样本。但是我们可以学习到一个映射X->Y。如果这个映射足够好的话,我们就可以处理没有看到的类了。 比如,我们在训练时没有看见过狮子的图像,但是我们可以用这个映射得到狮子的特征。一个好的狮子特征,可能就和猫,老虎等等比较接近,和汽车,飞机比较远离。
基于现有注意力机制的ZSL方法只是学习区域的embedding(例如,整个鸟体),忽略了视觉特征的可转移性(from seen to unsen)以及判别性的属性定位(例如,独特的鸟类(身体部位)b) 我们的TransZero减少了区域特征之间的耦合关系,因此提升了视觉特征的的可转移性,同时我们的TransZero可以预测attribute的位置,进一步帮助视觉语义特征的交互。
基于上述的分析,我们在传统的one-stepzsl算法中(上图中的backbone net + distribution-adptation module)引入了structure-adaptionmodule来拉近视觉和语义信息之间的结构差异。
文章[1]提出了在ImageNet和ZSL数据集上存在明显额cross-datasetbias ,因此我们提出了Feature Augmentation Encoder 来增强视觉特征。 同时我们还引入了feature-augmentedscaled dot-product attention机制来减少gird features之间的集合联系。
●计算gird features的中心坐标
●构建grid i 和grid j之间的geometry features
●Feature Augmentation Encoder
大量实验表明,TransZero 在三个 ZSL 基准测试中达到了最先进的水平。
可视化表明我们的方法可以定位到更具判别性的visualfeature
本文模型可以灵活应用在视觉任务的冷启动训练上。另外给大家介绍下CV域上的开源免费模型,欢迎大家体验、下载(大部分手机端即可体验):
https://modelscope.cn/models/damo/cv_resnet50_face-detection_retinaface/summary
https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/summary
https://modelscope.cn/models/damo/cv_manual_face-detection_tinymog/summary
https://modelscope.cn/models/damo/cv_manual_face-detection_ulfd/summary
https://modelscope.cn/models/damo/cv_manual_face-detection_mtcnn/summary
https://modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary
https://modelscope.cn/models/damo/cv_ir50_face-recognition_arcface/summary
https://modelscope.cn/models/damo/cv_manual_face-liveness_flir/summary
https://modelscope.cn/models/damo/cv_manual_face-liveness_flrgb/summary
https://modelscope.cn/models/damo/cv_manual_facial-landmark-confidence_flcm/summary
https://modelscope.cn/models/damo/cv_vgg19_facial-expression-recognition_fer/summary
https://modelscope.cn/models/damo/cv_resnet34_face-attribute-recognition_fairface/summary
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。